Arquitetura Técnica do Extrator

O fluig_extractor.py é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence).

🛠️ Tecnologias Utilizadas

BeautifulSoup4: Parsing de HTML e manipulação de tags (especialmente imagens).
Markdownify: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea.
Requests: Gerenciamento de sessões e requisições à API REST do Confluence.
Re & JSON: Processamento de padrões de texto e persistência de estado.

Mapeamento Recursivo: O script inicia na página raiz (ROOT_PAGE_ID = "653566687") e percorre recursivamente todos os filhos via API.
Gestão de Imagens:
- Identifica tags <img>.
- Baixa a imagem original para fluig_rag_docs/images/.
- Reescreve o caminho no Markdown para uma referência relativa local.
Conversão de Conteúdo: O conteúdo export_view é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown.
Resiliência:
- Utiliza um DELAY para evitar bloqueios por taxa de requisição.
- Mantém o extraction_progress.json para permitir retomar extrações interrompidas.

Status do Funnel: ✅ Ativo