Corrigindo conteudo: Arquitetura do Extrator
@@ -0,0 +1,20 @@
|
|||||||
|
# Arquitetura Técnica do Extrator
|
||||||
|
|
||||||
|
O `fluig_extractor.py` é um motor de scraping robusto projetado especificamente para a estrutura do portal TOTVS TDN (Confluence).
|
||||||
|
|
||||||
|
## 🛠️ Tecnologias Utilizadas
|
||||||
|
* **BeautifulSoup4**: Parsing de HTML e manipulação de tags (especialmente imagens).
|
||||||
|
* **Markdownify**: Conversão do conteúdo limpo de HTML para Markdown compatível com GitHub/Gitea.
|
||||||
|
* **Requests**: Gerenciamento de sessões e requisições à API REST do Confluence.
|
||||||
|
* **Re & JSON**: Processamento de padrões de texto e persistência de estado.
|
||||||
|
|
||||||
|
## 🧠 Fluxo de Execução
|
||||||
|
1. **Mapeamento Recursivo**: O script inicia na página raiz (`ROOT_PAGE_ID = "653566687"`) e percorre recursivamente todos os filhos via API.
|
||||||
|
2. **Gestão de Imagens**:
|
||||||
|
* Identifica tags `<img>`.
|
||||||
|
* Baixa a imagem original para `fluig_rag_docs/images/`.
|
||||||
|
* Reescreve o caminho no Markdown para uma referência relativa local.
|
||||||
|
3. **Conversão de Conteúdo**: O conteúdo `export_view` é extraído para garantir que macros do Confluence sejam renderizadas de forma legível antes da conversão para Markdown.
|
||||||
|
4. **Resiliência**:
|
||||||
|
* Utiliza um `DELAY` para evitar bloqueios por taxa de requisição.
|
||||||
|
* Mantém o `extraction_progress.json` para permitir retomar extrações interrompidas.
|
||||||
Reference in New Issue
Block a user