3
Arquitetura do Extrator
rodolpho edited this page 2026-05-06 13:58:19 -03:00

Arquitetura Técnica do Extrator

O fluig_extractor.py é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence).

🛠️ Tecnologias Utilizadas

  • BeautifulSoup4: Parsing de HTML e manipulação de tags (especialmente imagens).
  • Markdownify: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea.
  • Requests: Gerenciamento de sessões e requisições à API REST do Confluence.
  • Re & JSON: Processamento de padrões de texto e persistência de estado.

🧠 Fluxo de Execução

  1. Mapeamento Recursivo: O script inicia na página raiz (ROOT_PAGE_ID = "653566687") e percorre recursivamente todos os filhos via API.
  2. Gestão de Imagens:
    • Identifica tags <img>.
    • Baixa a imagem original para fluig_rag_docs/images/.
    • Reescreve o caminho no Markdown para uma referência relativa local.
  3. Conversão de Conteúdo: O conteúdo export_view é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown.
  4. Resiliência:
    • Utiliza um DELAY para evitar bloqueios por taxa de requisição.
    • Mantém o extraction_progress.json para permitir retomar extrações interrompidas.