CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñar a un robot a leer la letra manuscrita de tus abuelos, pero no en español, sino en idiomas que usan el alfabeto árabe (como el árabe, el persa, el urdu o el pastún).

Este artículo, titulado CER-HV, cuenta una historia sobre cómo los científicos se dieron cuenta de que el problema no era que el robot fuera "tonto", sino que el libro de instrucciones (el conjunto de datos) que le daban estaba lleno de errores.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Chef" y el "Menú Sucio"

Imagina que tienes un chef de élite (el modelo de Inteligencia Artificial) capaz de cocinar platos increíbles. Sin embargo, le estás dando un menú de recetas (los datos de entrenamiento) donde:

Algunas recetas dicen "pollo" pero la foto es de una pizza.
Otras recetas están cortadas a la mitad.
Algunas están escritas al revés.
Y otras tienen manchas de café que parecen letras.

Si el chef intenta aprender con este menú sucio, se confundirá, cometerá errores y nunca alcanzará su verdadero potencial. En el mundo de la tecnología, esto se llama "ruido en las etiquetas". Los investigadores descubrieron que muchos conjuntos de datos para leer escritura árabe estaban "sucios" de esta manera, y eso hacía que los resultados de las pruebas fueran falsos.

2. La Solución: El Sistema "CER-HV" (El Inspector con Lupa)

Para arreglar esto, los autores crearon un marco de trabajo llamado CER-HV. Piensa en esto como un sistema de dos pasos muy inteligente:

Paso 1: El Detector Automático (El Robot que lee rápido)

Primero, usan un modelo de IA (un tipo de red neuronal llamada CRNN) que actúa como un inspector rápido.

Este inspector lee todas las recetas del menú.
Si el inspector lee una receta y dice: "¡Oye, esto no tiene sentido! La foto no coincide con lo que dice el texto", le pone una puntuación de error alta.
La clave: En lugar de usar matemáticas complejas que confunden a los robots, usan una medida simple llamada CER (Tasa de Error de Caracteres). Es como decir: "De cada 100 letras, ¿cuántas escribiste mal?". Si el error es alto, es sospechoso.

Paso 2: La Verificación Humana (El Editor Humano)

Aquí entra la parte "Humana en el Bucle" (Human-in-the-Loop).

El robot no puede arreglar todo solo porque a veces se equivoca: a veces una receta es difícil de leer (letra muy fea) pero es correcta. El robot podría pensar que es un error cuando no lo es.
Por eso, el robot solo selecciona las recetas más sospechosas (las que tienen la puntuación de error más alta) y las pone en una pila para que un humano las revise.
El humano mira la imagen y dice: "Sí, aquí hay un error de escritura", "Aquí la foto está girada", o "Aquí hay una firma que no debería estar".
El humano corrige o elimina esos errores.

3. ¿Qué descubrieron?

Al aplicar este sistema a varios conjuntos de datos, encontraron cosas sorprendentes:

El menú estaba más sucio de lo que pensaban: Había errores de escritura, líneas cortadas, textos girados 180 grados, e incluso textos en alfabetos latinos mezclados en documentos árabes.
La limpieza funciona: Cuando limpiaron el menú (los datos) y volvieron a entrenar al chef (la IA), ¡el robot leyó mucho mejor!
- En los datos más sucios, la precisión mejoró hasta un 1.8%. Parece poco, pero en el mundo de la IA, es como pasar de un estudiante promedio a un genio.
- Incluso sin limpiar los datos, su "chef" (el modelo CRNN) ya era el mejor del mundo en varios idiomas, superando a sistemas mucho más complejos.

4. La Lección Principal

El mensaje del paper es como decir: "No necesitas un robot más inteligente si primero limpias el libro de instrucciones".

Durante años, los científicos se obsesionaron con crear arquitecturas de IA más complejas (como Transformers) para leer escritura árabe, ignorando que los datos estaban llenos de errores. Este trabajo nos enseña que:

La calidad de los datos es tan importante como el modelo.
Necesitamos humanos revisando lo que la máquina sospecha.
Ahora tenemos datos más limpios y confiables para que futuras investigaciones sean justas y precisas.

En resumen

Imagina que estás organizando una biblioteca. Antes, alguien tiraba libros al azar en las estanterías, algunos al revés, otros con páginas arrancadas. El bibliotecario (la IA) intentaba encontrar información pero fallaba.
Este paper dice: "Espera, usemos un robot para encontrar los libros que parecen estar mal colocados, y luego nosotros, los humanos, los arreglamos". Una vez que la biblioteca está ordenada, el bibliotecario encuentra todo perfecto.

¡Y así es como mejoramos la tecnología para leer la historia escrita a mano de millones de personas!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: CER-HV para la Limpieza de Datos en HTR de Escritura Árabe

1. Planteamiento del Problema

El reconocimiento de texto manuscrito (HTR, por sus siglas en inglés) para lenguas de escritura árabe (árabe, persa, urdu, pashto y ajami) se encuentra significativamente detrás del rendimiento logrado en lenguas de escritura latina, a pesar de los avances recientes en arquitecturas de modelos y conjuntos de datos.

Causa Raíz: Los autores identifican que la calidad de los datos es un factor limitante crítico. Muchos conjuntos de datos públicos contienen errores de etiquetado no reportados previamente, como transcripciones incorrectas, problemas de segmentación (líneas truncadas o múltiples líneas en una imagen), errores de orientación, incompatibilidad de scripts y contenido no textual (sellos, firmas).
Limitación de Métodos Actuales: Las técnicas existentes de detección de ruido basadas en la pérdida de entrenamiento (loss-based ranking) son poco fiables en HTR. En modelos basados en CTC (Connectionist Temporal Classification), la pérdida depende de la incertidumbre de la alineación y la longitud de la secuencia, lo que la hace menos informativa para detectar etiquetas erróneas en comparación con tareas de clasificación.
Necesidad: Se requiere un marco que combine la detección automática de errores con la verificación humana para limpiar los conjuntos de datos y establecer líneas base fiables.

2. Metodología: El Marco CER-HV

Los autores proponen CER-HV (CER-based Ranking with Human Verification), un marco de dos etapas diseñado para detectar y limpiar errores de etiquetas en conjuntos de datos de HTR.

A. Modelo Base: CRNN

Se utiliza una arquitectura CRNN (Red Neuronal Convolucional Recurrente) configurada con CTC.
Mejoras: La implementación sigue el marco "Best Practices", incorporando un extractor de características residual profundo con normalización por lotes, pooling máximo por columnas y una rama auxiliar de CTC para mejorar la convergencia.
Ventaja: Este modelo es computacionalmente eficiente y robusto, sirviendo como detector de ruido sin necesidad de arquitecturas complejas como los Transformers.

B. Etapa 1: Detección Automática de Ruido (Ranking basado en CER)

En lugar de usar la pérdida de entrenamiento, el marco utiliza la Tasa de Error de Caracteres (CER) calculada en el momento de la convergencia del entrenamiento (determinado por early stopping).
Lógica: Los modelos de aprendizaje profundo tienden a aprender muestras limpias primero y memorizar las ruidosas más tarde. Al detener el entrenamiento antes de la sobreajuste, las muestras con alto CER se consideran candidatas a tener etiquetas erróneas.
Puntuación: Cada muestra se puntúa según $c_i = \text{CER}(\hat{y}_i, y_i)$ , donde $\hat{y}_i$ es la predicción del modelo y $y_i$ es la etiqueta original.

C. Etapa 2: Verificación Humana (HITL)

Se seleccionan las muestras con un CER superior a un umbral fijo ( $\tau = 0.25$ ) para revisión humana.
Clasificación de Errores: Los revisores humanos categorizan las muestras en:
1. Error de transcripción (TE).
2. Error de segmentación (SE).
3. Error de orientación (OE).
4. Incompatibilidad de script (SM).
5. Contenido irrelevante/no textual (IC).
6. Válido pero difícil (VA): Muestras correctas pero visualmente complejas (se mantienen).
Las muestras con errores se eliminan o corrigen, mientras que las "válidas pero difíciles" se conservan para evitar sesgos.

3. Contribuciones Clave

Análisis Sistemático: Primera taxonomía exhaustiva de errores en conjuntos de datos de HTR de escritura árabe, abarcando transcripción, segmentación, orientación y contenido no textual.
Marco CER-HV: Introducción de un método novedoso que adapta la detección de ruido basada en dinámicas de aprendizaje al reconocimiento de secuencias mediante puntuación CER y detención temprana, superando las limitaciones de los métodos basados en pérdida.
Líneas Base Actualizadas: Demostración de que la limpieza de datos reduce significativamente el CER de evaluación (hasta un 1.8% de mejora) y establece nuevas referencias para conjuntos de datos ruidosos.
Rendimiento del Modelo: Establecimiento de una línea base CRNN que alcanza resultados State-of-the-Art (SOTA) en cinco de seis conjuntos de datos evaluados, sin usar datos sintéticos ni arquitecturas Transformer.
Recursos Abiertos: Liberación de particiones de evaluación limpias, anotaciones de errores verificados por humanos y código para reproducibilidad, incluyendo el primer benchmark para texto manuscrito persa (PHTD) y ajami.

4. Resultados Experimentales

El estudio se evaluó en seis conjuntos de datos: KHATT (Árabe), Muharaf (Árabe histórico), PHTI (Pashto), PHTD (Persa), NUST-UHWR (Urdu) y Ajami (Hausa/Fulfulde).

Rendimiento del CRNN (Sin limpieza):
- KHATT: 8.45% CER (SOTA).
- Muharaf: 10.11% CER (mejora de 8 puntos porcentuales sobre la línea base anterior).
- PHTI (Pashto): 8.26% CER (mejora drástica desde 20.7%).
- Ajami: 10.66% CER (mejora masiva frente a los 64-84% reportados anteriormente).
- PHTD (Persa): Establece un nuevo baseline de 11.3% CER.
Precisión del Detector de Ruido:
- El marco identificó errores con alta precisión en los conjuntos más ruidosos: 90% en la prueba de Muharaf, 80-86% en PHTI y 68-71% en Ajami.
- Se detectaron patrones específicos por dataset: Muharaf y Ajami tenían altas tasas de errores de segmentación y script; PHTI tenía muchos errores de orientación y transcripción.
Impacto de la Limpieza:
- En Conjuntos de Evaluación: Limpiar las etiquetas de prueba redujo el CER en 0.3–0.6% en datos limpios y en 1.0–1.8% en datos ruidosos (Muharaf y Ajami).
- En Conjuntos de Entrenamiento: Entrenar con datos limpios mejoró el rendimiento en Ajami (donde el ruido estructural era alto), pero tuvo un impacto marginal en conjuntos ya limpios como KHATT, confirmando que el ruido excesivo distorsiona la evaluación y el aprendizaje.

5. Significado e Impacto

Reevaluación de la Complejidad: El estudio demuestra que gran parte de la dificultad reportada en el HTR de escritura árabe no se debe únicamente a la complejidad intrínseca del script (cursivo, diacríticos), sino a la inconsistencia y el ruido en los datos.
Eficiencia de Baselines: Confirma que un CRNN bien configurado puede igualar o superar a arquitecturas Transformer más complejas en múltiples tareas si los datos son de alta calidad, desafiando la noción de que siempre se necesitan modelos más grandes.
Validación de Datos: CER-HV se presenta como una herramienta práctica y de bajo costo para la validación de nuevos conjuntos de datos, permitiendo a los investigadores identificar y corregir errores críticos antes de entrenar modelos costosos.
Generalización: Aunque el enfoque se centra en scripts árabes, la metodología es generalizable a cualquier tarea de reconocimiento de texto donde el etiquetado sea costoso y propenso a errores.

En conclusión, el trabajo subraya que el progreso en el HTR para lenguas de escritura árabe depende tanto de la calidad de los datos como del diseño de los modelos, y ofrece un marco reproducible para lograr evaluaciones más justas y fiables.