From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante cheia de documentos importantes (como regulamentos do exército, manuais e leis), mas todos eles estão em PDF. O PDF é como um "papel digital": ele é ótimo para imprimir e manter o layout bonito, mas é um pesadelo para os computadores entenderem o que está escrito, especialmente quando há tabelas, imagens ou letras com acentos (como o "ç" em português).

Agora, imagine que você quer usar um robô superinteligente (uma Inteligência Artificial) para responder perguntas sobre esses documentos. O robô não consegue ler PDF direto. Ele precisa que você transforme esses PDFs em texto limpo primeiro.

Este artigo é como um teste de corrida para ver qual "máquina de transformar" funciona melhor para preparar esses documentos para o robô.

A Grande Descoberta: A Preparação é Tudo!

A principal lição do estudo é simples: se você der comida de lixo para o robô, ele vai dar uma resposta de lixo. Se você der comida gourmet, ele vai dar uma resposta gourmet.

Os pesquisadores descobriram que a qualidade de como você transforma o PDF em texto importa muito mais do que qual modelo de Inteligência Artificial você usa para responder.

As "Ferramentas" Testadas (Os Cozinheiros)

Eles testaram quatro "cozinheiros" (ferramentas de software) diferentes para transformar os PDFs em texto:

PDFLoader (O Básico): É como tentar rasgar o papel e colar as palavras. É rápido, mas perde a estrutura (onde começa um título, onde termina uma tabela).
MinerU e DeepSeek OCR (Os Robôs de Leitura): Tenta ler o documento como se fosse um scanner. Funciona bem em alguns casos, mas às vezes confunde letras (transformando "caça" em "caca", mudando o sentido da frase!) ou perde a hierarquia do texto.
Docling (O Chef Estrela): Esta ferramenta foi a vencedora. Ela não apenas lê o texto, mas entende a estrutura: sabe o que é um título, o que é uma tabela e o que é uma imagem.

O Segredo do Sucesso: Não é Só o Texto, é a Organização

Aqui entra a parte mais interessante. Mesmo com a melhor ferramenta (Docling), se você apenas jogar todo o texto numa pilha bagunçada, o robô se perde.

Eles descobriram que duas coisas fazem a diferença:

O "Mapa" do Documento (Hierarquia): Em vez de apenas cortar o texto em pedaços aleatórios, eles ensinaram o robô a respeitar os títulos e subtítulos. É como organizar uma biblioteca por gênero e autor, em vez de jogar todos os livros numa caixa. Isso ajudou o robô a saber onde procurar a resposta.
A Descrição das Imagens: Quando o documento tinha uma imagem, a ferramenta vencedora descrevia a imagem em texto para o robô. Sem isso, o robô ficava "cego" para informações importantes nas fotos.

O Resultado da Corrida

O Pior Cenário: Usar ferramentas ruins ou sem organização fez o robô acertar apenas 71% das perguntas.
O Cenário Perfeito (Feito à Mão): Se humanos fizessem todo o trabalho de limpar e organizar os documentos, o robô acertaria 97%.
O Cenário Vencedor (Automático): Usando a ferramenta Docling com a organização certa, o robô acertou 94%.

Isso significa que, com a ferramenta certa e um pouco de organização, um computador pode fazer um trabalho quase tão bom quanto um humano, sem precisar de horas de trabalho manual.

A Tentativa Falhada: O "Mapa de Conexões" (GraphRAG)

Os pesquisadores também tentaram uma coisa mais complexa: criar um mapa de conexões (uma rede de ideias ligadas entre si) antes de alimentar o robô. Eles achavam que isso ajudaria o robô a entender melhor as relações entre as palavras.

O resultado? Foi um fracasso. O sistema ficou mais lento, mais caro para rodar e, pior, menos preciso (apenas 82% de acerto).

A Analogia: Foi como tentar desenhar um mapa de todas as ruas de uma cidade antes de dirigir. Em vez de ajudar, o mapa ficou tão cheio de linhas confusas que o motorista se perdeu. Para documentos administrativos bem estruturados, um texto limpo e organizado é melhor do que um mapa complexo mal feito.

Conclusão Simples

Se você quer construir um sistema de Inteligência Artificial para responder perguntas sobre documentos:

Não gaste dinheiro primeiro com robôs mais caros.
Invista tempo em "limpar a cozinha": Escolha a ferramenta certa para transformar seus PDFs em texto e organize esse texto de forma lógica.
Lembre-se: "Lixo entra, lixo sai". Se os dados de entrada estiverem bagunçados, a Inteligência Artificial, por mais inteligente que seja, não conseguirá ajudar.

O estudo nos ensina que, antes de tentar ser o mais inteligente possível, precisamos ser os mais organizados possíveis.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os sistemas de Geração Aumentada por Recuperação (RAG) dependem criticamente da qualidade dos dados de entrada para gerar respostas precisas e evitar alucinações. No entanto, a maioria das pesquisas foca na otimização dos mecanismos de recuperação, modelos de linguagem (LLMs) ou estratégias de chunking, tratando a conversão de documentos brutos (especificamente PDFs) para texto legível por máquinas como um problema resolvido ou um detalhe de engenharia.

O artigo identifica uma lacuna crítica: não existem estudos anteriores que avaliem frameworks de conversão de PDF baseando-se no seu impacto na precisão final de perguntas e respostas (QA) em um pipeline RAG. PDFs são formatos visuais e não estruturados, e erros na extração de texto (como perda de hierarquia, tabelas mal interpretadas ou erros em caracteres especiais como o "ç" em português) propagam-se diretamente para o sistema de recuperação, degradando o desempenho.

2. Metodologia

Os autores desenvolveram uma arquitetura modular baseada no conceito de Medallion Architecture (Camadas Bronze, Prata e Ouro) para criar um pipeline de processamento de dados reprodutível e configurável.

Corpus de Dados: Um conjunto de 36 documentos administrativos militares portugueses (1.706 páginas, ~492 mil palavras), contendo tabelas complexas, campos de formulário, imagens e diacríticos específicos do português.
Frameworks Avaliados: Quatro ferramentas de código aberto foram testadas para conversão PDF-para-Markdown:
1. Docling: Pipeline modular com modelos especializados.
2. MinerU: Ferramenta baseada em OCR (versão local e cliente HTTP com VLM).
3. DeepSeek OCR: Abordagem baseada em Modelo de Linguagem Visual (VLM).
4. PDFLoader (LangChain): Usado como baseline inferior (extração direta sem processamento).
5. Markdown Manualmente Curado: Usado como baseline superior (padrão ouro).
Configurações Experimentais: Foram testadas 19 configurações de pipeline, variando:
- Ferramenta de conversão.
- Transformações de limpeza (limpeza de tabelas HTML, fórmulas LaTeX).
- Reconstrução de hierarquia (baseada em fontes vs. baseada em LLM).
- Estratégias de chunking (Recursivo, Markdown Recursivo, Hierárquico Recursivo).
- Enriquecimento de metadados (incluindo descrições de imagens via VLM).
Avaliação: Um conjunto de benchmark de 50 perguntas manualmente criadas sobre o corpus. A precisão foi medida usando um LLM-as-judge (gpt-4o-mini), com a média de 10 execuções para cada configuração. O parâmetro de recuperação ( $K$ ) foi fixado em 50 para garantir que a precisão dependesse da qualidade dos dados e não da limitação do retriever.
Exploração GraphRAG: Uma implementação exploratória de GraphRAG (usando Neo4j e extração de entidades via LLM) foi testada para verificar se a adição de um grafo de conhecimento melhoraria os resultados.

3. Principais Contribuições e Resultados

A. Qualidade de Preparação de Dados é Dominante

O resultado mais significativo é que a qualidade da preparação dos dados é o fator mais influente no desempenho do RAG.

A diferença de precisão entre a configuração pior (DeepSeek OCR: 71,2%) e a melhor (Docling com hierarquia e descrições de imagem: 94,1%) foi de 22,9 pontos percentuais.
A diferença entre o baseline inferior (PDFLoader: 86,9%) e o superior (Markdown Manual: 97,1%) foi de mais de 10 pontos.
Isso demonstra que otimizar o pipeline de pré-processamento traz ganhos maiores do que trocar o LLM ou o modelo de embedding.

B. Impacto da Estratégia de Chunking e Metadados

A escolha da ferramenta de conversão foi menos importante do que a estratégia de divisão e enriquecimento dos dados:

Divisão Hierárquica: O uso de chunking hierárquico recursivo (que preserva a estrutura de cabeçalhos e adiciona "breadcrumbs" de contexto) aumentou a precisão do Docling de 89,4% para 93,2%.
Metadados: O enriquecimento com metadados estruturais contribuiu mais para a precisão do que a escolha da ferramenta de conversão em si.

C. Reconstrução de Hierarquia: Fontes vs. LLM

Uma descoberta inesperada foi que a reconstrução de hierarquia baseada em fontes (font-based) superou consistentemente a abordagem baseada em LLM.

A abordagem baseada em fontes (HR-F) foi mais precisa e confiável para documentos administrativos estruturados do que a inferência semântica via LLM, que introduziu erros na identificação de níveis de cabeçalho.

D. GraphRAG Não Justificou a Complexidade (Neste Contexto)

A implementação de GraphRAG obteve apenas 82% de precisão, ficando abaixo do RAG básico bem configurado (94,1%).

O grafo construído foi considerado "raso e esparsamente conectado".
A deduplicação de entidades via similaridade semântica (85%) piorou ligeiramente o resultado (81%), sugerindo que a fusão de conceitos distintos ocorreu.
O estudo conclui que, sem um ontologia de domínio bem definida e design cuidadoso, a construção ingênua de grafos via LLM não supera um pipeline RAG vetorial bem otimizado.

E. Desafios de Idiomas Não Ingleses

O estudo destacou erros específicos em documentos em português, como a má interpretação do caractere "ç" por algumas ferramentas (ex: MinerU VLM), o que corrompe a recuperação. O Docling, com seu suporte robusto a OCR multilíngue, lidou melhor com esses caracteres.

4. Significado e Implicações

Este artigo fornece evidências empíricas de que, para sistemas RAG em domínios específicos com documentos complexos (PDFs legais/administrativos):

Investimento em Pré-processamento: A prioridade deve ser a qualidade da conversão e estruturação dos dados, não apenas a seleção do modelo generativo.
Estrutura > Conteúdo Bruto: Preservar a hierarquia lógica do documento e adicionar contexto estrutural aos chunks é crucial para o raciocínio do LLM.
Cuidado com GraphRAG: A adição de grafos de conhecimento não é uma solução mágica; sem ontologias rigorosas, pode introduzir ruído e custo computacional desnecessário.
Arquitetura Modular: A arquitetura proposta permite a troca transparente de frameworks e estratégias, facilitando a experimentação sistemática.

Em resumo, o estudo reforça o ditado "lixo entra, lixo sai" (garbage in, garbage out), mostrando que um pipeline de dados bem desenhado pode aproximar-se da precisão de curadoria manual sem o custo de mão de obra extensiva, enquanto soluções complexas como GraphRAG ainda precisam de maturação para superar abordagens vetoriais bem calibradas.