From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Este estudo avalia sistematicamente quatro frameworks de conversão de PDF para Markdown, demonstrando que a qualidade do pré-processamento de dados, especialmente o enriquecimento de metadados e a segmentação hierárquica, é mais determinante para a precisão de sistemas RAG do que a escolha da ferramenta de conversão em si.

José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos

Publicado 2026-04-08
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante cheia de documentos importantes (como regulamentos do exército, manuais e leis), mas todos eles estão em PDF. O PDF é como um "papel digital": ele é ótimo para imprimir e manter o layout bonito, mas é um pesadelo para os computadores entenderem o que está escrito, especialmente quando há tabelas, imagens ou letras com acentos (como o "ç" em português).

Agora, imagine que você quer usar um robô superinteligente (uma Inteligência Artificial) para responder perguntas sobre esses documentos. O robô não consegue ler PDF direto. Ele precisa que você transforme esses PDFs em texto limpo primeiro.

Este artigo é como um teste de corrida para ver qual "máquina de transformar" funciona melhor para preparar esses documentos para o robô.

A Grande Descoberta: A Preparação é Tudo!

A principal lição do estudo é simples: se você der comida de lixo para o robô, ele vai dar uma resposta de lixo. Se você der comida gourmet, ele vai dar uma resposta gourmet.

Os pesquisadores descobriram que a qualidade de como você transforma o PDF em texto importa muito mais do que qual modelo de Inteligência Artificial você usa para responder.

As "Ferramentas" Testadas (Os Cozinheiros)

Eles testaram quatro "cozinheiros" (ferramentas de software) diferentes para transformar os PDFs em texto:

  1. PDFLoader (O Básico): É como tentar rasgar o papel e colar as palavras. É rápido, mas perde a estrutura (onde começa um título, onde termina uma tabela).
  2. MinerU e DeepSeek OCR (Os Robôs de Leitura): Tenta ler o documento como se fosse um scanner. Funciona bem em alguns casos, mas às vezes confunde letras (transformando "caça" em "caca", mudando o sentido da frase!) ou perde a hierarquia do texto.
  3. Docling (O Chef Estrela): Esta ferramenta foi a vencedora. Ela não apenas lê o texto, mas entende a estrutura: sabe o que é um título, o que é uma tabela e o que é uma imagem.

O Segredo do Sucesso: Não é Só o Texto, é a Organização

Aqui entra a parte mais interessante. Mesmo com a melhor ferramenta (Docling), se você apenas jogar todo o texto numa pilha bagunçada, o robô se perde.

Eles descobriram que duas coisas fazem a diferença:

  • O "Mapa" do Documento (Hierarquia): Em vez de apenas cortar o texto em pedaços aleatórios, eles ensinaram o robô a respeitar os títulos e subtítulos. É como organizar uma biblioteca por gênero e autor, em vez de jogar todos os livros numa caixa. Isso ajudou o robô a saber onde procurar a resposta.
  • A Descrição das Imagens: Quando o documento tinha uma imagem, a ferramenta vencedora descrevia a imagem em texto para o robô. Sem isso, o robô ficava "cego" para informações importantes nas fotos.

O Resultado da Corrida

  • O Pior Cenário: Usar ferramentas ruins ou sem organização fez o robô acertar apenas 71% das perguntas.
  • O Cenário Perfeito (Feito à Mão): Se humanos fizessem todo o trabalho de limpar e organizar os documentos, o robô acertaria 97%.
  • O Cenário Vencedor (Automático): Usando a ferramenta Docling com a organização certa, o robô acertou 94%.

Isso significa que, com a ferramenta certa e um pouco de organização, um computador pode fazer um trabalho quase tão bom quanto um humano, sem precisar de horas de trabalho manual.

A Tentativa Falhada: O "Mapa de Conexões" (GraphRAG)

Os pesquisadores também tentaram uma coisa mais complexa: criar um mapa de conexões (uma rede de ideias ligadas entre si) antes de alimentar o robô. Eles achavam que isso ajudaria o robô a entender melhor as relações entre as palavras.

O resultado? Foi um fracasso. O sistema ficou mais lento, mais caro para rodar e, pior, menos preciso (apenas 82% de acerto).

  • A Analogia: Foi como tentar desenhar um mapa de todas as ruas de uma cidade antes de dirigir. Em vez de ajudar, o mapa ficou tão cheio de linhas confusas que o motorista se perdeu. Para documentos administrativos bem estruturados, um texto limpo e organizado é melhor do que um mapa complexo mal feito.

Conclusão Simples

Se você quer construir um sistema de Inteligência Artificial para responder perguntas sobre documentos:

  1. Não gaste dinheiro primeiro com robôs mais caros.
  2. Invista tempo em "limpar a cozinha": Escolha a ferramenta certa para transformar seus PDFs em texto e organize esse texto de forma lógica.
  3. Lembre-se: "Lixo entra, lixo sai". Se os dados de entrada estiverem bagunçados, a Inteligência Artificial, por mais inteligente que seja, não conseguirá ajudar.

O estudo nos ensina que, antes de tentar ser o mais inteligente possível, precisamos ser os mais organizados possíveis.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →