Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

Este artigo apresenta uma avaliação empírica de diferentes analisadores de PDF e estratégias de fragmentação para sistemas de Resposta a Perguntas com RAG no domínio financeiro, introduzindo o novo benchmark TableQuest e oferecendo diretrizes práticas para construir pipelines robustos que lidem com a heterogeneidade de documentos PDF.

Omar El Bachyr, Yewei Song, Saad Ezzini, Jacques Klein, Tegawendé F. Bissyandé, Anas Zilali, Ulrick Ble, Anne Goujon

Publicado 2026-04-15
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de documentos financeiros (relatórios anuais, balanços, contratos) que são todos guardados em PDFs. O problema é que esses PDFs são feitos para olhos humanos, não para robôs. Eles são como caixas de ferramentas cheias de mistérios: têm texto, tabelas complexas, imagens e gráficos misturados de um jeito que os computadores odeiam.

Se você tentar pedir para um robô inteligente (uma Inteligência Artificial) ler esses PDFs e responder perguntas como "Qual foi o lucro da empresa em 2023?", o robô pode se perder, inventar fatos ou simplesmente não encontrar a resposta.

É aqui que entra o RAG (um sistema que ajuda a IA a buscar informações antes de responder). Mas, para o RAG funcionar, ele precisa de duas coisas essenciais:

  1. Um "Desempacotador" (Parser): Alguém que abre o PDF e transforma aquele formato feio em texto legível.
  2. Um "Cortador" (Chunking): Alguém que corta esse texto em pedaços menores para a IA conseguir processar.

Os autores deste estudo (da Universidade de Luxemburgo e do BGL BNP Paribas) decidiram fazer um "Test Drive" para ver qual combinação de desempacotador e cortador funciona melhor para finanças. Eles criaram até um novo jogo de perguntas chamado TableQuest para testar especificamente a capacidade de ler tabelas.

Aqui está o resumo da ópera, usando analogias do dia a dia:

1. O Problema: A Biblioteca Bagunçada

Imagine que você precisa encontrar uma receita específica em um livro de culinária antigo.

  • O PDF é o livro antigo: a letra está meio borrada, as tabelas de ingredientes estão desenhadas à mão e o texto está em duas colunas.
  • A IA é um cozinheiro genial, mas que só consegue ler um pedaço de papel de cada vez. Se você jogar o livro inteiro na cara dele, ele desmaia.
  • O RAG é o ajudante que vai ao livro, corta as páginas em pedaços, organiza em caixas e entrega apenas a parte relevante para o cozinheiro.

2. O Experimento: Quem é o Melhor Ajudante?

Os pesquisadores testaram várias ferramentas para ver qual fazia o trabalho de melhor qualidade:

  • Os Desempacotadores (Parsers): Eles testaram 6 ferramentas diferentes.

    • Analogia: Alguns são como tesouras simples (rápidas, mas cortam de qualquer jeito). Outros são como cirurgiões (lentos, mas cortam exatamente onde deve ser, preservando a tabela).
    • Resultado: Para textos normais, um cirurgião cuidadoso (chamado pdfminer) foi ótimo. Mas para tabelas (aquelas planilhas de números), o cirurgião que entende de layout (chamado pdfplumber) foi o campeão. Se você usar uma tesoura simples em uma tabela, o robô vai ler os números na ordem errada e a conta não fecha.
  • Os Cortadores (Chunking): Como cortar o texto?

    • Analogia: Você pode cortar por palavras (muito fragmentado), por frases (bom equilíbrio) ou por significado (inteligente, mas complexo).
    • Resultado: Cortar por significado (usando uma IA para saber onde a ideia muda) funcionou muito bem, especialmente para tabelas. Mas, o segredo foi o sobreposição.
    • O Segredo da Sobreposição: Imagine que você está cortando uma fita adesiva. Se você cortar exatamente na borda, pode perder um pedacinho de cola. Os pesquisadores descobriram que deixar uma sobreposição de 25% (cortar um pouco do pedaço anterior no novo pedaço) foi o "ponto ideal". Isso garante que nenhuma informação importante seja perdida na "costura" entre os pedaços.

3. O Novo Jogo: TableQuest

A maioria dos testes anteriores focava apenas em ler parágrafos de texto. Mas no mundo financeiro, o dinheiro está nas tabelas.

  • Eles criaram o TableQuest, um teste onde a IA precisa encontrar uma tabela específica, entender onde está o número "Lucro Líquido" e fazer uma conta (ex: somar dois números de tabelas diferentes).
  • Descoberta: Sistemas que funcionavam bem em texto puro falharam miseravelmente nas tabelas. Foi necessário um desempacotador que soubesse "segurar" a estrutura da tabela.

4. O Cérebro (A IA)

Eles também testaram cérebros de tamanhos diferentes (modelos de IA pequenos vs. grandes).

  • Analogia: Um cérebro pequeno é como um estagiário inteligente; um cérebro grande é como um sênior experiente.
  • Resultado: Para perguntas complexas de finanças, cérebros maiores (modelos mais potentes) fizeram muito mais sentido. O estagiário às vezes inventava a resposta, enquanto o sênior lia os dados com precisão.

5. As Lições Práticas (O que você deve levar para casa)

Se você é um gerente ou engenheiro tentando montar um sistema assim, o estudo diz:

  1. Não use qualquer tesoura: Para documentos financeiros, não use ferramentas básicas. Use ferramentas que entendem tabelas (como o pdfplumber).
  2. Não corte muito fino: Cortar o texto em pedaços minúsculos aumenta o custo e o tempo, mas não melhora a resposta.
  3. Use a "cola" (Sobreposição): Deixe sempre uma pequena parte do texto anterior se repetir no próximo pedaço (25%). Isso evita que a IA perca o contexto.
  4. Invista no cérebro certo: Se o dinheiro está em jogo, use uma IA um pouco mais potente. O custo extra vale a pena para evitar erros caros.

Em resumo: Para fazer uma IA ler relatórios financeiros com precisão, você precisa de um "mestre de obras" que saiba ler tabelas, um "cortador" que não perca informações nas bordas e um "cérebro" experiente o suficiente para não inventar histórias. O estudo provou que a combinação certa dessas peças faz toda a diferença entre um sistema que funciona e um que dá prejuízo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →