Corrigindo conteudo: Arquitetura do Extrator

2026-05-06 13:58:19 -03:00
parent 0d683c8957
commit 310e7e83e4
1 changed files with 20 additions and 0 deletions
@@ -0,0 +1,20 @@
+# Arquitetura Técnica do Extrator
+
+O `fluig_extractor.py` é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence).
+
+## 🛠️ Tecnologias Utilizadas
+*   **BeautifulSoup4**: Parsing de HTML e manipulação de tags (especialmente imagens).
+*   **Markdownify**: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea.
+*   **Requests**: Gerenciamento de sessões e requisições à API REST do Confluence.
+*   **Re & JSON**: Processamento de padrões de texto e persistência de estado.
+
+## 🧠 Fluxo de Execução
+1.  **Mapeamento Recursivo**: O script inicia na página raiz (`ROOT_PAGE_ID = "653566687"`) e percorre recursivamente todos os filhos via API.
+2.  **Gestão de Imagens**: 
+    *   Identifica tags `<img>`.
+    *   Baixa a imagem original para `fluig_rag_docs/images/`.
+    *   Reescreve o caminho no Markdown para uma referência relativa local.
+3.  **Conversão de Conteúdo**: O conteúdo `export_view` é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown.
+4.  **Resiliência**:
+    *   Utiliza um `DELAY` para evitar bloqueios por taxa de requisição.
+    *   Mantém o `extraction_progress.json` para permitir retomar extrações interrompidas.