OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Este artigo apresenta um estudo de benchmark em larga escala que demonstra que modelos de linguagem multimodal (MLLMs) podem realizar extração de informações de documentos com desempenho comparável às abordagens tradicionais que utilizam OCR, sugerindo que a entrada apenas em imagem é suficiente quando combinada com instruções e exemplos bem projetados.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, Yifan Mai, Daniel Dahlmeier

Publicado 2026-03-04
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma pilha gigante de recibos, faturas e contratos de empresas ao redor do mundo. O objetivo é ler tudo isso e transformar aquelas informações bagunçadas em uma planilha organizada e limpa.

Antigamente, para fazer isso, as empresas usavam um processo de duas etapas, como se fosse uma linha de montagem com dois trabalhadores:

  1. O "Escriturário" (OCR): Ele olhava para a foto do documento e tentava transcrever tudo o que via em texto digital.
  2. O "Analista" (Modelo de IA): Ele pegava esse texto transcrito e tentava entender onde estava o valor total, a data e o nome do cliente para preencher a planilha.

O problema? O "Escriturário" às vezes errava a transcrição (confundia um "O" com um "0", ou perdia uma linha). Quando ele errava, o "Analista" também errava, porque estava trabalhando com informações ruins. Além disso, esse processo era caro, lento e difícil de adaptar para novos tipos de documentos.

A Grande Pergunta:
Com o surgimento de Modelos de Linguagem Multimodais (MLLMs) — que são super-inteligentes e conseguem "ver" imagens e "ler" ao mesmo tempo — será que ainda precisamos desse "Escriturário" intermediário? Será que o "Analista" moderno consegue olhar direto para a foto do documento e fazer tudo sozinho?

O que os autores descobriram:

Os pesquisadores da SAP e da Universidade Stanford fizeram um teste gigante (um "batalha de gigantes") com os modelos de IA mais modernos do mundo. Eles compararam três cenários:

  1. Dar apenas o texto transcrito (o jeito antigo).
  2. Dar apenas a imagem do documento (o jeito novo).
  3. Dar a imagem E o texto juntos.

As Surpresas (Analogias):

  • O "Escriturário" pode ser desnecessário: Para os modelos de IA mais poderosos (como o Gemini da Google), dar apenas a imagem funcionou tão bem, ou até melhor, do que dar o texto transcrito. É como se o "Analista" tivesse olhos tão aguçados que ele consegue ler a foto diretamente, entendendo o layout, as fontes e a estrutura sem precisar de alguém para digitar o texto antes. Na verdade, às vezes, passar pelo "Escriturário" (OCR) até atrapalhava, porque ele introduzia erros que o "Analista" acabava repetindo.
  • Quanto maior, melhor (mas com ressalvas): Geralmente, modelos maiores funcionam melhor. Mas os autores notaram algo curioso: em alguns casos, modelos menores e mais rápidos conseguiam ler a imagem diretamente com tanta eficiência que não precisavam de ajuda externa.
  • O segredo não é só a máquina, é o "Manual de Instruções": Eles descobriram que a IA precisa de um "manual" muito bem escrito (instruções claras, exemplos e regras). Se você der um manual confuso, mesmo a IA mais inteligente vai errar. Com um manual melhor, o desempenho saltou.

A Ferramenta de Detetive (Análise de Erros):
Para entender por que as IAs erravam, os autores criaram um sistema automatizado que age como um detetive. Em vez de humanos olhando erro por erro, a própria IA analisa os erros, classifica-os (ex: "leu o número errado", "confundiu o layout", "não entendeu a abreviação") e diz exatamente onde o processo falhou. Isso ajudou a refinar o sistema e melhorar os resultados.

Conclusão Simples:
Este estudo diz que, para documentos complexos, o futuro pode ser olhar direto para a foto e deixar a IA inteligente fazer o trabalho de leitura e organização sozinha. Isso simplifica o processo, reduz custos e evita erros de transcrição.

Resumo em uma frase:
Não precisamos mais de um "tradutor" intermediário para ler documentos; as novas IAs são tão espertas que conseguem ler a foto diretamente, desde que a gente lhes dê instruções claras sobre o que procurar.