From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un libro antiguo y muy dañado, lleno de manchas, letras borrosas y páginas pegadas. Quieres estudiarlo, pero necesitas convertir esas imágenes en texto digital para poder buscar palabras o analizarlo con una computadora.

Aquí es donde entra la OCR (Reconocimiento Óptico de Caracteres). Es como un "traductor automático" que intenta leer el libro viejo. Pero, al igual que un traductor que no conoce bien el idioma antiguo, la OCR comete muchos errores: lee una "a" como una "o", o confunde una "rn" con una "m".

Los investigadores de humanidades digitales (gente que usa tecnología para estudiar historia, literatura, etc.) suelen corregir estos errores manualmente o con programas. El problema, según este artículo, es que cuando hacen estas correcciones, a menudo borran la historia de cómo llegaron a la solución. Es como si alguien reescribiera el libro a mano, borrara el original y dijera: "Aquí está el texto perfecto", sin dejar ninguna nota de qué cambiaron, por qué lo cambiaron o si estaban seguros de ello.

Esto es peligroso para la investigación histórica porque si cambias una palabra, podrías cambiar el significado de todo el párrafo, y nadie sabría por qué.

La Solución: El "Árbol Genealógico" del Texto

Los autores (Haoze Guo y Ziqi Wei) proponen una nueva forma de trabajar. En lugar de solo entregar el texto corregido, quieren guardar un "registro de procedencia" (provenance).

Piensa en esto como un sistema de control de versiones para historiadores, similar a como los editores de video guardan cada corte, o como un chef que anota cada ingrediente que añadió a una receta.

Su sistema registra:

Qué se cambió: (Ej: "Madifon" se cambió a "Madison").
Quién lo hizo: (Fue una regla automática, un modelo de IA o una persona real).
Qué tan seguros estaban: (Un puntaje de confianza, como si dijera "estoy 74% seguro").
Si fue revisado: (¿Un humano aprobó este cambio?).

La Analogía del "Filtro de Confianza"

Para probar su idea, hicieron un experimento con textos históricos. Imagina que tienes tres versiones del mismo texto:

La versión sucia: El texto original tal como lo leyó la máquina (lleno de errores).
La versión "todo arreglado": Donde se aplicaron todas las correcciones posibles, sin importar si la máquina estaba segura o no.
La versión "filtrada por confianza": Aquí es donde entra la magia. Usan el registro de procedencia para aplicar un filtro. Solo aceptan las correcciones que tienen un puntaje de confianza alto o que fueron aprobadas por un humano.

¿Qué descubrieron?

La versión "todo arreglado" parecía mejor, pero en realidad creaba nuevos problemas. La computadora inventaba nombres de personas o lugares que no existían porque se atrevió a corregir cosas en las que no estaba segura.
La versión "filtrada" mantenía la mayoría de las mejoras, pero evitaba los errores peligrosos.
Lo más importante: Ahora los investigadores pueden ver dónde están los problemas. Si un nombre de persona aparece y desaparece en diferentes versiones, el sistema les dice: "Oye, este nombre es inestable porque se basó en una corrección que tenía poca confianza".

¿Por qué es esto un gran avance?

Imagina que estás juzgando un caso judicial.

El método antiguo: Te dan un informe final que dice "El acusado estaba en París". Pero no sabes si la policía lo vio, si alguien lo adivinó o si fue un error de tipeo.
El nuevo método: Te dan el informe final, pero también te muestran el cinturón de evidencia: "El acusado estaba en París. Nota: Esta conclusión se basa en una corrección automática con 60% de confianza. Un humano no la revisó. Si cambiamos esta corrección, el acusado podría estar en Madrid."

En resumen

Este artículo nos dice que en la investigación histórica, la incertidumbre es información. No debemos ocultar las dudas o los cambios que hacemos en los textos antiguos.

Al guardar el "árbol genealógico" de cada corrección, los investigadores pueden:

Saber qué partes de su análisis son sólidas y cuáles son frágiles.
Decidir cuánto riesgo quieren correr (¿quiero más datos aunque sean dudosos, o menos datos pero muy seguros?).
Hacer que su trabajo sea transparente y reproducible, permitiendo que otros vean exactamente cómo llegaron a sus conclusiones.

Es como pasar de una cocina donde el chef mezcla todo en una olla y te sirve el plato, a una cocina donde te muestran cada ingrediente, quién lo cortó y qué tan seguro estaba de que estaba fresco, para que tú decidas si quieres comerlo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines", presentado en español:

Resumen Técnico: Rastreando la Proveniencia de las Correcciones en Pipelines de Humanidades Digitales

1. El Problema

En las Humanidades Digitales (DH), el Reconocimiento Óptico de Caracteres (OCR) es un paso crítico pero propenso a errores para convertir materiales históricos escaneados en corpus analíticos. Debido a la degradación de los documentos, fuentes no estándar y variaciones tipográficas, el OCR genera ruido significativo.

Para mitigar esto, los investigadores aplican correcciones (mediante reglas, redes neuronales o edición manual) antes de realizar tareas de Procesamiento de Lenguaje Natural (NLP), como la Extracción de Entidades Nombradas (NER). Sin embargo, los flujos de trabajo actuales suelen sobrescribir las decisiones intermedias, eliminando el historial de cómo el texto original evolucionó. Esto crea un desafío metodológico:

Se pierde la capacidad de auditar por qué un resultado downstream (ej. una entidad extraída) cambió.
Se oscurece la incertidumbre inherente a las correcciones.
Las interpretaciones académicas se basan en transformaciones textuales invisibles para el analista, comprometiendo la crítica de fuentes y la reproducibilidad.

2. Metodología y Marco Propuesto

Los autores proponen un marco consciente de la proveniencia que modela la corrección no como un paso único, sino como una secuencia trazable de decisiones editoriales.

Esquema de Proveniencia a Nivel de Span:
- En lugar de solo tokens o caracteres, las correcciones se registran a nivel de "span" (fragmentos de texto).
- Cada registro vincula un span original con su forma corregida e incluye metadatos esenciales:
  - Identificadores: ID de documento/página.
  - Offsets: Posiciones exactas en el texto base (OCR crudo).
  - Tipo de edición: Sustitución, división (split), fusión (merge).
  - Fuente de corrección: Basada en reglas, asistida por modelo o humana.
  - Confianza: Puntuación de confianza del modelo o regla.
  - Estado de revisión: Si fue aprobado por un humano.
- Semántica de Offsets: Todos los eventos se anclan al texto base (OCR crudo) para evitar la deriva de offsets en correcciones en cascada, permitiendo reconstruir variantes bajo políticas de confianza específicas.
Diseño del Estudio Piloto:
- Corpus: Un conjunto pequeño de textos históricos digitalizados.
- Variantes de Texto: Se generaron tres versiones para cada documento:
  1. OCR Crudo: Sin correcciones.
  2. Totalmente Corregido: Todas las correcciones aplicadas.
  3. Filtrado por Proveniencia: Solo correcciones que cumplen un criterio de confianza (ej. confianza $\ge$ 0.70) o aprobación humana.
- Tarea Downstream: Se utilizó un pipeline de NER fijo (modelo Transformer fine-tuned en CoNLL-2003) sobre las tres variantes para medir el impacto.
- Métricas: Se comparó el número de menciones de entidades, entidades únicas, solapamiento (Jaccard) y volatilidad (entidades que aparecen/desaparecen o cambian de forma).
- Análisis de Atribución: Se asociaron las entidades volátiles con los eventos de corrección cercanos (usando superposición de spans y ventanas de búsqueda) para identificar qué tipo de edición causó la inestabilidad.

3. Contribuciones Clave

Esquema de Proveniencia: Introducción de un esquema técnico a nivel de span que registra el linaje de edición, fuente, confianza y estado de aprobación, diseñado para ser agnóstico a las herramientas y compatible con pipelines NLP existentes (JSONL, CSV, anotaciones stand-off).
Comparación Empírica: Un estudio piloto que demuestra cómo las diferentes rutas de corrección alteran sustancialmente los resultados de NER y la interpretación a nivel de documento.
Lente de Análisis de Errores: Demostración de que las señales de proveniencia pueden identificar salidas inestables y priorizar la revisión humana, transformando la corrección de un "caja negra" a una capa analítica de primer nivel.

4. Resultados Principales

Impacto en la Extracción de Entidades:
- La versión "Totalmente Corregida" aumentó el número de menciones y entidades únicas en comparación con el OCR crudo, pero también generó la mayor volatilidad (176 entidades volátiles).
- La versión "Filtrada por Proveniencia" retuvo la mayoría de las ganancias de cobertura (1287 menciones vs. 1342) mientras reducía significativamente la volatilidad (121 entidades volátiles).
Relación Confianza-Estabilidad:
- A medida que se endurece el umbral de confianza (o se requiere aprobación humana), la volatilidad disminuye monótonamente, pero también lo hace la cobertura.
- Un umbral intermedio (ej. confianza $\ge$ 0.70) ofrece un equilibrio óptimo entre cobertura y estabilidad analítica.
Identificación de Fuentes de Inestabilidad:
- Las ediciones que afectan los límites de los tokens (split/merge) mostraron el mayor aumento en volatilidad, a pesar de ser menos frecuentes.
- Las zonas de diseño no corporales (encabezados, pies de página) fueron focos de inestabilidad.
- Las correcciones con baja confianza o sin revisión humana estaban desproporcionadamente asociadas con entidades volátiles.
Vinculación de Entidades (Entity Linking):
- Las correcciones afectan no solo la extracción, sino también la resolución de entidades a bases de conocimiento. Pequeños cambios en la superficie del texto o normalizaciones pueden alterar drásticamente las decisiones de vinculación.

5. Significado e Implicaciones

El artículo argumenta que la proveniencia debe tratarse como una capa analítica de primer nivel en los pipelines de NLP para Humanidades Digitales, no simplemente como metadatos de implementación.

Reproducibilidad y Auditoría: Permite a los investigadores auditar por qué un resultado cambió, vinculando las entidades extraídas directamente a las decisiones editoriales específicas que las generaron.
Gestión de la Incertidumbre: Facilita la distinción entre correcciones que restauran la fidelidad al origen (reparación) y aquellas que normalizan variaciones históricamente significativas (normalización), haciendo visibles las decisiones interpretativas.
Toma de Decisiones Informada: Proporciona a los investigadores una herramienta para elegir explícitamente su "punto de operación" entre cobertura y estabilidad, en lugar de asumir que un texto corregido es una verdad absoluta.
Estándares Futuros: Sugiere la necesidad de nuevos estándares de reporte para DH que incluyan la sensibilidad a las rutas de corrección y las señales de proveniencia que contribuyen a la inestabilidad de los datos.

En resumen, este trabajo propone un cambio de paradigma: pasar de ocultar las correcciones de OCR a gestionarlas explícitamente como datos de proveniencia, mejorando así la integridad, la transparencia y la utilidad crítica de los corpus digitales en la investigación histórica.

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

La Solución: El "Árbol Genealógico" del Texto

La Analogía del "Filtro de Confianza"

¿Por qué es esto un gran avance?

En resumen

Resumen Técnico: Rastreando la Proveniencia de las Correcciones en Pipelines de Humanidades Digitales

1. El Problema

2. Metodología y Marco Propuesto

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities