A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Este estudo utiliza a estrutura PRISMA para analisar métodos de avaliação de OCR e compreensão de documentos, revelando que a predominância de dados modernos e ocidentais em benchmarks invisibiliza documentos históricos de comunidades marginalizadas, como jornais negros, levando a falhas estruturais e danos representacionais que exigem mudanças nas práticas institucionais e de governança de dados.

Fitsum Sileshi Beyene, Christopher L. Dancy

Publicado 2026-03-30
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma máquina mágica capaz de ler qualquer papel antigo e transformá-lo em texto digital, como se fosse um tradutor instantâneo do passado para o presente. Essa é a promessa da OCR (Reconhecimento Óptico de Caracteres).

No entanto, este artigo de pesquisa revela um problema sério: essa "máquina mágica" está cega para uma parte muito importante da história humana, especialmente para os jornais e documentos históricos da comunidade negra americana.

Aqui está uma explicação simples do que os autores descobriram, usando algumas analogias:

1. O Problema do "Treinamento de Academia"

Pense nos sistemas de OCR modernos como atletas de ginástica. Para ganhar medalhas, eles treinam exaustivamente em academias modernas, com equipamentos novos, pisos lisos e regras claras. Eles são avaliados em competições que medem apenas se eles conseguem fazer um movimento perfeito em um tapete branco e novo.

  • A Realidade: Os documentos históricos (especialmente os jornais negros do século XIX) não são como esses tapetes brancos. Eles são como ruas de terra cheias de buracos, poeira, luzes piscando e placas de madeira velhas e tortas.
  • O Erro: Os cientistas treinam as máquinas apenas nos "tapetes brancos" (documentos corporativos modernos, artigos científicos e PDFs digitais). Quando essas máquinas são colocadas nas "ruas de terra" (jornais antigos), elas tropeçam, mas ninguém percebe porque a competição (a avaliação) só olha para o tapete branco.

2. A Ilusão da Precisão (O Contador de Letras)

Atualmente, para saber se a máquina está funcionando bem, os pesquisadores usam uma régua chamada Taxa de Erro de Caracteres. É como se você estivesse corrigindo um trabalho escolar contando apenas quantas letras foram escritas erradas.

  • A Armadilha: Imagine que a máquina leu um jornal antigo com 4 colunas de texto. Ela consegue ler quase todas as letras corretamente (99% de precisão na régua). Mas, ela misturou a ordem das colunas! Ela leu a coluna da direita e depois a da esquerda, transformando uma história coerente em um texto sem sentido.
  • O Resultado: Na régua antiga, a máquina tirou nota 10. Na vida real, ela destruiu o significado do texto. O artigo diz que focar apenas nas letras é como avaliar um tradutor apenas pela ortografia, ignorando se ele traduziu a frase inteira na ordem correta.

3. O "Fantasma" dos Documentos Negros

Os autores focaram em jornais históricos negros, como The Weekly Advocate e The North Star. Esses documentos têm características únicas:

  • Tipografia estranha: Letras góticas ou muito pequenas que não existem nos livros modernos.
  • Danos físicos: Manchas de microfilme, rasgos e sombras que parecem texto.
  • Layout complexo: Várias colunas entrelaçadas que contavam uma história visual.

Quando as máquinas tentam ler esses documentos, elas cometem erros específicos que as avaliações atuais ignoram:

  • Colapso de Coluna: A máquina "esquece" que existem colunas e lê tudo em linha reta, misturando poemas com notícias políticas.
  • Alucinação: A máquina, tentando ser "inteligente", inventa palavras que não existem para preencher espaços em branco, criando uma história falsa que parece real.
  • Invisibilidade: Como as máquinas não são boas nesses documentos, os historiadores e o público geral não conseguem acessar essa história. É como se esses documentos tivessem sido apagados da internet.

4. Por que isso acontece? (A Raiz do Problema)

Não é que a tecnologia seja incapaz de ler esses documentos. O artigo explica que o problema é político e organizacional, não técnico.

  • Incentivos Errados: Os pesquisadores querem criar modelos que ganhem prêmios nas competições atuais. Como as competições usam apenas documentos modernos, ninguém tem incentivo para treinar a máquina nos documentos antigos.
  • Falta de Diversidade: Os bancos de dados usados para treinar as IAs são cheios de documentos de empresas e universidades brancas modernas. Os arquivos comunitários e históricos são deixados de fora, como se não fossem importantes.

5. A Solução Proposta

Os autores pedem uma mudança de mentalidade:

  • Novas Regras de Jogo: Precisamos criar novas "competições" (benchmarks) que incluam documentos históricos e comunitários.
  • Novas Réguas: Em vez de contar apenas letras erradas, precisamos medir se a máquina entendeu a estrutura do jornal (se manteve as colunas, se não inventou texto).
  • Reconhecimento Cultural: Tratar os arquivos negros não como "casos especiais" ou "problemas difíceis", mas como parte fundamental do treinamento de qualquer sistema que queira ser verdadeiramente inteligente e justo.

Em resumo:
Estamos construindo máquinas que são excelentes em ler o futuro e o presente corporativo, mas que estão falhando em ler a nossa própria história. Se não mudarmos como testamos e treinamos essas máquinas, corremos o risco de perder a voz de gerações inteiras de pessoas que já lutaram para ser ouvidas. A tecnologia precisa aprender a ver além das letras e entender a história por trás do papel.