diff --git a/Arquitetura-do-Extrator.md b/Arquitetura-do-Extrator.md new file mode 100644 index 0000000..59376cf --- /dev/null +++ b/Arquitetura-do-Extrator.md @@ -0,0 +1,20 @@ +# Arquitetura Técnica do Extrator + +O `fluig_extractor.py` é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence). + +## 🛠️ Tecnologias Utilizadas +* **BeautifulSoup4**: Parsing de HTML e manipulação de tags (especialmente imagens). +* **Markdownify**: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea. +* **Requests**: Gerenciamento de sessões e requisições à API REST do Confluence. +* **Re & JSON**: Processamento de padrões de texto e persistência de estado. + +## 🧠 Fluxo de Execução +1. **Mapeamento Recursivo**: O script inicia na página raiz (`ROOT_PAGE_ID = "653566687"`) e percorre recursivamente todos os filhos via API. +2. **Gestão de Imagens**: + * Identifica tags ``. + * Baixa a imagem original para `fluig_rag_docs/images/`. + * Reescreve o caminho no Markdown para uma referência relativa local. +3. **Conversão de Conteúdo**: O conteúdo `export_view` é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown. +4. **Resiliência**: + * Utiliza um `DELAY` para evitar bloqueios por taxa de requisição. + * Mantém o `extraction_progress.json` para permitir retomar extrações interrompidas.