From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro antigo e muito danificado, escrito à mão há séculos. Você quer digitalizá-lo para que os computadores possam ler e analisar o texto. Para fazer isso, você usa um "olho de robô" chamado OCR (Reconhecimento Óptico de Caracteres).

O problema é que esse "olho de robô" é meio cego. Ele confunde letras, lê manchas de café como palavras e erra nomes de pessoas. É como tentar ler uma carta escrita com uma caneta que está quase sem tinta, em um papel amarelado e rasgado.

Aqui entra a parte da correção. Pesquisadores (especialistas em Humanidades Digitais) usam programas de inteligência artificial e, às vezes, leem o texto manualmente para consertar esses erros. O objetivo é deixar o texto limpo e perfeito.

O Grande Problema:
Até agora, quando esses pesquisadores corrigiam o texto, eles faziam como se o erro nunca tivesse existido. Eles apagavam o "olho de robô" errado e escreviam a versão correta, apagando a história de como a correção foi feita.

Imagine que você está montando um quebra-cabeça. Se alguém trocar uma peça azul por uma vermelha e você não deixar nenhum registro de que a peça original era azul, no futuro, ninguém saberá por que a imagem final ficou vermelha. Se a peça vermelha estiver errada, ninguém saberá onde procurar o erro.

A Solução Proposta pelo Artigo:
Os autores (Haoze Guo e Ziqi Wei) criaram um novo sistema chamado "Rastreamento de Procedência".

Pense nisso como um diário de bordo ou uma caixa preta para cada palavra do texto.

O Diário de Bordo: Em vez de apenas mostrar o texto final, o sistema guarda um registro de cada mudança.
- O que foi mudado? (Ex: "Madifon" virou "Madison").
- Quem mudou? (Foi o computador? Foi uma regra automática? Foi um humano?).
- Qual a confiança? (O computador tinha 74% de certeza ou 99%?).
- Foi aprovado? (Um humano conferiu e disse "sim"?).
A Analogia do Cozinheiro:
Imagine que você está fazendo um bolo.
- Método Antigo: Você segue a receita, mas se o açúcar estiver estragado, você troca por adoçante e joga o açúcar fora. No final, o bolo fica doce, mas ninguém sabe que você usou adoçante. Se o bolo ficar com gosto estranho, ninguém sabe por quê.
- Método Novo (Com Procedência): Você anota no caderno: "Troquei o açúcar por adoçante porque o açúcar estava estragado. Fiz isso com 80% de certeza. O chef aprovou". Agora, se o bolo ficar estranho, você olha no caderno e sabe exatamente qual ingrediente causou o problema.

O Que Eles Descobriram (O Experimento):
Eles testaram isso em textos históricos antigos. Eles compararam três versões:

Texto Sujo: O original, cheio de erros do robô.
Texto Perfeito: Tudo corrigido, sem deixar rastros.
Texto Inteligente: Corrigido, mas usando o "diário de bordo" para filtrar apenas as correções seguras.

Os Resultados:

A "Perfeição" é Perigosa: Quando eles corrigiram tudo sem cuidado, o computador encontrou muitos mais nomes de pessoas e lugares. Mas muitos desses nomes eram ilusões criadas por correções arriscadas. O texto parecia melhor, mas a análise estava "alucinando".
O Filtro de Confiança: Ao usar o sistema de rastreamento, eles puderam dizer: "Vamos usar apenas as correções que o humano aprovou ou que o computador tem muita certeza".
O Resultado: Eles perderam um pouco de informação, mas ganharam confiabilidade. O sistema conseguiu identificar quais nomes eram "instáveis" (que mudavam dependendo de como você corrigia o texto) e avisar o pesquisador: "Ei, cuidado com esse nome, a correção aqui foi duvidosa".

Por que isso é importante?
Na pesquisa histórica, a verdade é tudo. Se um historiador diz "O Rei João apareceu 50 vezes no jornal", ele precisa ter certeza de que o computador não inventou esses 50 nomes por causa de um erro de leitura.

Com esse novo sistema, a pesquisa se torna:

Transparente: Você sabe exatamente o que mudou no texto.
Auditável: Você pode voltar atrás e ver quem (ou o que) fez a mudança.
Cética: Você não aceita o texto final como "verdade absoluta", mas entende onde estão as incertezas.

Resumo da Ópera:
O artigo diz que, ao corrigir textos antigos para computadores, não devemos apenas "limpar a sujeira" e jogar o lixo fora. Devemos guardar a sujeira em um saco etiquetado, anotando de onde veio e quem a tirou. Assim, quando analisarmos o texto, saberemos se o que estamos vendo é a história real ou apenas um reflexo de como o computador decidiu corrigir os erros. É como ter um mapa do tesouro que mostra não só onde está o ouro, mas também onde estão as armadilhas que o mapa original escondeu.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines", estruturado conforme solicitado:

1. O Problema

No fluxo de trabalho das Humanidades Digitais (DH), o Reconhecimento Óptico de Caracteres (OCR) é uma etapa crítica, mas propensa a erros, especialmente em materiais históricos degradados, com fontes não padronizadas ou layouts complexos. Para tornar esses textos utilizáveis em tarefas de Processamento de Linguagem Natural (NLP), pesquisadores aplicam correções (via regras, redes neurais ou edição manual).

O problema central identificado é que os fluxos de trabalho comuns sobrescrevem as decisões intermediárias. Ao corrigir o texto, perde-se o histórico de como o texto original evoluiu, quais alterações foram feitas, qual a origem da correção (humana ou automática) e o nível de incerteza associado. Isso obscurece a "história analítica" do texto, tornando difícil auditar por que entidades nomeadas ou interpretações mudaram, comprometendo a reprodutibilidade e a crítica de fontes, valores fundamentais nas DH.

2. Metodologia

Os autores propõem uma abordagem baseada em proveniência (rastreabilidade da origem dos dados) e realizam um estudo piloto para validar sua eficácia.

Esquema de Proveniência:
- Desenvolveram um esquema de registro ao nível de intervalo (span-level), não apenas ao nível de token.
- Cada registro de correção contém: identificadores de documento/página, offsets do intervalo, texto original e corrigido, tipo de edição (substituição, divisão, fusão), fonte da correção (baseada em regras, assistida por modelo ou humana), confiança (opcional) e status de aprovação humana.
- O esquema é "base-anchored" (ancorado no texto base/OCR bruto) para evitar deriva de offsets e permitir a reconstrução determinística de variantes.
- Os dados podem ser serializados em JSONL, CSV ou anotações stand-off, garantindo interoperabilidade com pipelines NLP existentes.
Design do Estudo Piloto:
- Corpus: Um conjunto pequeno de textos históricos digitalizados.
- Variáveis de Texto: Para cada documento, foram criadas três variantes:
  1. OCR Bruto: Sem correções.
  2. Totalmente Corrigido: Todas as correções disponíveis aplicadas.
  3. Filtrada por Proveniência: Apenas correções que atendem a um critério de "política de confiança" (ex: confiança $\ge$ 0,70 ou aprovadas por humanos).
- Tarefa Downstream: Reconhecimento de Entidades Nomeadas (NER) utilizando um modelo transformer fixo (fine-tuned no CoNLL-2003) para isolar o efeito das correções de OCR.
- Métricas: Comparação de menções de entidades, entidades únicas, sobreposição (Jaccard) e volatilidade (entidades que aparecem, desaparecem ou mudam de forma).
- Atribuição: Uso de heurísticas de sobreposição de intervalos para vincular entidades voláteis a eventos de correção específicos.

3. Principais Contribuições

Esquema de Proveniência ao Nível de Intervalo: Uma estrutura de dados que registra linhagem de edição, fonte, confiança e status de revisão, permitindo a reconstrução de variantes de texto sob políticas de confiança específicas.
Comparação Empírica: Um estudo piloto comparando o desempenho de NER entre OCR bruto, texto totalmente corrigido e texto filtrado por proveniência, demonstrando como diferentes caminhos de correção alteram os resultados analíticos.
Lente de Análise de Erro Orientada a DH: Uma demonstração de como os sinais de proveniência podem identificar saídas instáveis e priorizar revisões humanas, transformando a proveniência em uma camada analítica de primeira classe, e não apenas metadados de implementação.

4. Resultados

Impacto na Extração de Entidades: A variante "Totalmente Corrigida" aumentou o número de menções e entidades únicas em comparação ao OCR bruto, mas também gerou a maior volatilidade (176 entidades instáveis). Isso indica que as correções alteram não apenas o volume, mas a estabilidade do inventário de dados.
Eficácia do Filtro de Proveniência: A variante "Filtrada por Proveniência" manteve a maior parte dos ganhos de cobertura (1287 menções vs. 1184 do bruto) enquanto reduzia significativamente a volatilidade (121 entidades instáveis).
Correlação com Incerteza: Uma fração substancial das entidades instáveis estava ligada a correções de baixa confiança ou não revisadas.
Sinais Preditivos de Instabilidade:
- Edições que afetam limites (split/merge) mostraram o maior aumento na volatilidade, apesar de serem menos frequentes.
- Zonas de layout não-textuais (cabeçalhos, rodapés) foram "pontos quentes" de instabilidade.
- Sinais como "baixa confiança" e "não revisado" servem como flags úteis para triagem, embora sejam menos diagnósticos que o tipo de edição.
Linkagem de Entidades: A correção total aumentou a cobertura de linkagem (conexão a bases de conhecimento), mas introduziu instabilidade em menções voláteis. O filtro por proveniência preservou os ganhos de cobertura enquanto reduzia mudanças de linkagem indesejadas.

5. Significado e Conclusão

O artigo argumenta que a proveniência deve ser tratada como uma camada analítica de primeira classe nos pipelines de NLP para Humanidades Digitais.

Transparência e Crítica de Fontes: Ao tornar visíveis as decisões editoriais e as incertezas, o framework permite que pesquisadores contestem e auditem os resultados, distinguindo entre correções que restauram a fidelidade à fonte e aquelas que normalizam variações históricas significativas.
Controle de Trade-off: O estudo demonstra que é possível ajustar o ponto de operação entre "cobertura" (encontrar mais entidades) e "estabilidade" (confiar nos dados), permitindo que pesquisadores documentem e justifiquem suas escolhas metodológicas.
Reprodutibilidade: A preservação da linhagem de correção torna os resultados de NLP auditáveis e reprodutíveis, resolvendo um desafio metodológico onde interpretações futuras dependem de transformações textuais invisíveis.

Em suma, a proposta move o foco de apenas "corrigir o texto" para "gerenciar o processo de correção", oferecendo ferramentas para uma interpretação mais segura e crítica de corpora históricos digitalizados.

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities