From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Este artículo presenta un marco de procedencia para el reconocimiento óptico de caracteres en humanidades digitales que registra el linaje de las correcciones a nivel de fragmento, demostrando que rastrear estos cambios es esencial para mejorar la reproducibilidad, la crítica de fuentes y la interpretación consciente de la incertidumbre en el análisis de textos históricos.

Haoze Guo, Ziqi Wei

Publicado Mon, 09 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un libro antiguo y muy dañado, lleno de manchas, letras borrosas y páginas pegadas. Quieres estudiarlo, pero necesitas convertir esas imágenes en texto digital para poder buscar palabras o analizarlo con una computadora.

Aquí es donde entra la OCR (Reconocimiento Óptico de Caracteres). Es como un "traductor automático" que intenta leer el libro viejo. Pero, al igual que un traductor que no conoce bien el idioma antiguo, la OCR comete muchos errores: lee una "a" como una "o", o confunde una "rn" con una "m".

Los investigadores de humanidades digitales (gente que usa tecnología para estudiar historia, literatura, etc.) suelen corregir estos errores manualmente o con programas. El problema, según este artículo, es que cuando hacen estas correcciones, a menudo borran la historia de cómo llegaron a la solución. Es como si alguien reescribiera el libro a mano, borrara el original y dijera: "Aquí está el texto perfecto", sin dejar ninguna nota de qué cambiaron, por qué lo cambiaron o si estaban seguros de ello.

Esto es peligroso para la investigación histórica porque si cambias una palabra, podrías cambiar el significado de todo el párrafo, y nadie sabría por qué.

La Solución: El "Árbol Genealógico" del Texto

Los autores (Haoze Guo y Ziqi Wei) proponen una nueva forma de trabajar. En lugar de solo entregar el texto corregido, quieren guardar un "registro de procedencia" (provenance).

Piensa en esto como un sistema de control de versiones para historiadores, similar a como los editores de video guardan cada corte, o como un chef que anota cada ingrediente que añadió a una receta.

Su sistema registra:

  1. Qué se cambió: (Ej: "Madifon" se cambió a "Madison").
  2. Quién lo hizo: (Fue una regla automática, un modelo de IA o una persona real).
  3. Qué tan seguros estaban: (Un puntaje de confianza, como si dijera "estoy 74% seguro").
  4. Si fue revisado: (¿Un humano aprobó este cambio?).

La Analogía del "Filtro de Confianza"

Para probar su idea, hicieron un experimento con textos históricos. Imagina que tienes tres versiones del mismo texto:

  1. La versión sucia: El texto original tal como lo leyó la máquina (lleno de errores).
  2. La versión "todo arreglado": Donde se aplicaron todas las correcciones posibles, sin importar si la máquina estaba segura o no.
  3. La versión "filtrada por confianza": Aquí es donde entra la magia. Usan el registro de procedencia para aplicar un filtro. Solo aceptan las correcciones que tienen un puntaje de confianza alto o que fueron aprobadas por un humano.

¿Qué descubrieron?

  • La versión "todo arreglado" parecía mejor, pero en realidad creaba nuevos problemas. La computadora inventaba nombres de personas o lugares que no existían porque se atrevió a corregir cosas en las que no estaba segura.
  • La versión "filtrada" mantenía la mayoría de las mejoras, pero evitaba los errores peligrosos.
  • Lo más importante: Ahora los investigadores pueden ver dónde están los problemas. Si un nombre de persona aparece y desaparece en diferentes versiones, el sistema les dice: "Oye, este nombre es inestable porque se basó en una corrección que tenía poca confianza".

¿Por qué es esto un gran avance?

Imagina que estás juzgando un caso judicial.

  • El método antiguo: Te dan un informe final que dice "El acusado estaba en París". Pero no sabes si la policía lo vio, si alguien lo adivinó o si fue un error de tipeo.
  • El nuevo método: Te dan el informe final, pero también te muestran el cinturón de evidencia: "El acusado estaba en París. Nota: Esta conclusión se basa en una corrección automática con 60% de confianza. Un humano no la revisó. Si cambiamos esta corrección, el acusado podría estar en Madrid."

En resumen

Este artículo nos dice que en la investigación histórica, la incertidumbre es información. No debemos ocultar las dudas o los cambios que hacemos en los textos antiguos.

Al guardar el "árbol genealógico" de cada corrección, los investigadores pueden:

  • Saber qué partes de su análisis son sólidas y cuáles son frágiles.
  • Decidir cuánto riesgo quieren correr (¿quiero más datos aunque sean dudosos, o menos datos pero muy seguros?).
  • Hacer que su trabajo sea transparente y reproducible, permitiendo que otros vean exactamente cómo llegaron a sus conclusiones.

Es como pasar de una cocina donde el chef mezcla todo en una olla y te sirve el plato, a una cocina donde te muestran cada ingrediente, quién lo cortó y qué tan seguro estaba de que estaba fresco, para que tú decidas si quieres comerlo.