O fluig_extractor.py é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence).
🛠️ Tecnologias Utilizadas
BeautifulSoup4: Parsing de HTML e manipulação de tags (especialmente imagens).
Markdownify: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea.
Requests: Gerenciamento de sessões e requisições à API REST do Confluence.
Re & JSON: Processamento de padrões de texto e persistência de estado.
🧠 Fluxo de Execução
Mapeamento Recursivo: O script inicia na página raiz (ROOT_PAGE_ID = "653566687") e percorre recursivamente todos os filhos via API.
Gestão de Imagens:
Identifica tags <img>.
Baixa a imagem original para fluig_rag_docs/images/.
Reescreve o caminho no Markdown para uma referência relativa local.
Conversão de Conteúdo: O conteúdo export_view é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown.
Resiliência:
Utiliza um DELAY para evitar bloqueios por taxa de requisição.
Mantém o extraction_progress.json para permitir retomar extrações interrompidas.