From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un traductor automático muy inteligente (un modelo de lenguaje visual) que puede "leer" fotos de carteles, documentos o letreros en la calle. Este traductor es genial: entiende el contexto, sabe gramática y puede adivinar palabras que están borrosas.

Sin embargo, tiene un defecto de personalidad: es un poco demasiado creativo. A veces, cuando no está seguro de lo que ve en la foto, en lugar de decir "no lo sé", inventa una palabra que tiene sentido gramatical pero que no está en la foto. Es como si un estudiante que no sabe la respuesta a un examen de historia decidiera inventar un hecho histórico que suena plausible, pero que es totalmente falso.

En el mundo de la Inteligencia Artificial, esto se llama "alucinación". Para una aplicación simple, puede ser divertido. Pero si usas este sistema para leer un contrato legal, una receta de medicina o una señal de tráfico, inventar una palabra puede ser peligroso.

El Problema: "Parece bien" vs. "Está comprobado"

Los investigadores de este paper (de la Universidad de Posts y Telecomunicaciones de Nanjing) se dieron cuenta de que los modelos actuales se entrenan para que sus respuestas suenen plausibles (que tengan sentido lógico), pero no para que sean verificables (que se puedan comprobar visualmente en la imagen).

Es como tener un guardia de seguridad que solo mira si tu historia suena creíble, en lugar de mirar tu identificación.

La Solución: El "Inspector de Riesgos Geométricos" (GRC)

Para arreglar esto sin tener que reentrenar al modelo (que es costoso y difícil), los autores crearon un sistema de control externo llamado Geometric Risk Controller (GRC).

Aquí te explico cómo funciona con una analogía sencilla:

1. La Técnica de los "5 Espectadores" (Probing Multi-View)

Imagina que tienes una foto borrosa de un letrero y le preguntas al modelo: "¿Qué dice?".
En lugar de confiar en una sola respuesta, el sistema le muestra la misma foto al modelo 5 veces, pero con pequeños cambios:

Una vez normal.
Una vez un poco desplazada a la izquierda.
Una vez un poco más grande.
Una vez un poco más pequeña.
Una vez un poco desplazada a la derecha.

Es como si le preguntaras a 5 espectadores diferentes que miran la misma escena desde ángulos ligeramente distintos.

2. El Filtro de Realidad (Screening Estructural)

Antes de escuchar a los espectadores, el sistema aplica una regla básica de física:

Si el letrero en la foto es muy pequeño, el modelo no puede inventar una frase de 50 palabras.
Si el modelo intenta escribir algo que es demasiado largo para el espacio que ocupa en la imagen, el sistema lo descarta inmediatamente. Es como decir: "Esa historia es demasiado larga para caber en ese espacio".

3. El Voto de Consenso (Consenso Transversal)

Aquí viene la magia. El sistema compara las 5 respuestas:

Escenario A (Caos): 5 espectadores dicen cosas totalmente diferentes ("PAN", "PIZZA", "AUTO", "GATO", "SOL").
- Decisión del sistema: "¡Alto! No hay consenso. Es demasiado peligroso. No voy a dar ninguna respuesta (Abstención)." Es mejor no decir nada que decir algo falso.
Escenario B (Acuerdo): 4 de los 5 espectadores dicen "BANCO" y uno dice "BANQO".
- Decisión del sistema: "Hay un fuerte consenso. La mayoría coincide. Aceptamos la respuesta 'BANCO'".

¿Por qué es esto importante?

En el mundo real, a veces es mejor no responder que responder mal.

El modelo normal: Siempre responde. Si ve una foto borrosa, inventa algo. Esto es peligroso en aplicaciones críticas.
El nuevo sistema (GRC): Actúa como un filtro de seguridad. Si no está seguro, se queda callado. Si está seguro, responde.

Los Resultados (En palabras simples)

Los autores probaron esto con varios modelos de IA y fotos de letras reales. Descubrieron que:

Reducción de desastres: El sistema casi elimina los errores "catastróficos" (como inventar números en una factura o cambiar una palabra de un contrato).
Control total: Los usuarios pueden elegir qué tan estricto quieren ser.
- Modo "Relajado": Responde más veces, pero con un poco más de riesgo.
- Modo "Estricto": Solo responde cuando está 100% seguro, reduciendo el riesgo a casi cero, aunque deje de responder en algunos casos difíciles.

En resumen

Este paper nos dice que para usar Inteligencia Artificial en el mundo real (donde los errores cuestan dinero o vidas), no basta con tener un modelo "inteligente". Necesitamos un sistema de control que actúe como un supervisor estricto.

En lugar de dejar que la IA "improvisé" como un actor de teatro, el sistema la obliga a comprobar sus respuestas desde varios ángulos y solo permite que salga al escenario si todo el equipo está de acuerdo. Es pasar de la "plausibilidad" (que suena bien) a la "verificabilidad" (que es real y comprobable).

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: De la Plausibilidad a la Verificabilidad

1. El Problema: Desalineación en la Implementación de OCR Generativo

El artículo identifica una brecha crítica en el uso de Modelos de Lenguaje y Visión (VLM) congelados como motores de Reconocimiento Óptico de Caracteres (OCR) generativos.

Desalineación Fundamental: Los VLMs utilizan decodificación autoregresiva optimizada para la plausibilidad semántica (generar texto que tenga sentido lingüísticamente). Sin embargo, el OCR requiere verificabilidad geométrica (el texto generado debe estar soportado por la evidencia visual y las restricciones espaciales de la imagen).
Riesgos de Despliegue: Esta discrepancia provoca fallos catastróficos, como:
- Sobre-generación: El modelo continúa generando texto más allá de lo visible en la imagen.
- Sustituciones no soportadas: El modelo reemplaza caracteres visuales ambiguos con palabras semánticamente plausibles pero incorrectas.
Limitación de las Métricas Actuales: Las métricas tradicionales (como la precisión promedio o CER en benchmarks) enmascaran estos fallos de "cola larga" (rare pero costosos), ya que un modelo puede tener un rendimiento promedio alto pero fallar catastróficamente en casos específicos, lo que es inaceptable para aplicaciones de usuario final.

2. Metodología: Controlador de Riesgo Geométrico (GRC)

Los autores proponen reformular el problema de OCR con VLMs congelados como un problema de selección con abstención (accept/abstain). En lugar de intentar mejorar el modelo interno, se añade una capa de control externa que decide si emitir una transcripción o abstenerse.

El sistema, llamado Geometric Risk Controller (GRC), opera bajo un protocolo fijo y consta de los siguientes componentes:

Sondeo Multi-Visión (Multi-view Probing):
- En lugar de una sola inferencia, el sistema consulta al VLM congelado $K$ veces (ej. $K=5$ ) con vistas ligeramente perturbadas de la misma imagen (traslaciones, jitter de recorte, variaciones de escala).
- Esto genera un registro de evidencia exógena basado en la consistencia entre vistas.
Filtrado Estructural (Structural Screening):
- Se aplican restricciones ligeras y agnósticas a las etiquetas a las cadenas generadas.
- Límite de Longitud Geométrica: Se calcula una cota superior de longitud basada en la geometría del primer plano de la imagen. Si la cadena generada excede esta longitud, se descarta como inviable.
Consenso y Estabilidad (Consensus & Stability):
- Se normalizan las cadenas de todas las vistas válidas.
- Se calcula la fracción de votos ( $q$ ) para la cadena mayoritaria (modo).
- Se mide la dispersión ( $\Delta$ ) utilizando la distancia de edición normalizada (Levenshtein) entre las cadenas válidas y la candidata.
Mecanismo de Decisión (Accept/Abstain):
- El sistema acepta una transcripción solo si se cumplen tres condiciones simultáneas:
  1. Suficiente número de vistas válidas ( $n \ge K_{min}$ ).
  2. Existencia de un modo único con una fracción de votos alta ( $q \ge \tau$ ).
  3. Baja dispersión entre las cadenas ( $\Delta \le \kappa$ ).
- Si no se cumplen, el sistema se abstiene (devuelve $\perp$ ), evitando exponer un error al usuario.
Puntos de Operación (Operating Points):
- Se introduce un parámetro de estrictidad ( $m$ ) que ajusta el umbral de consenso ( $\tau$ ). Esto permite a los operadores elegir un punto en la curva de compensación entre cobertura (cuántas imágenes se procesan) y riesgo (probabilidad de error en las imágenes procesadas).

3. Contribuciones Clave

Reencuadre del Problema: Cambian el enfoque de la precisión promedio a la gestión de riesgos de despliegue, introduciendo la "verificabilidad geométrica" como métrica central.
Controlador Agnóstico al Modelo: El GRC es una capa externa que no requiere reentrenar el VLM, funcionando como un contrato de despliegue auditable.
Validación Empírica: Demuestran que el control de riesgo explícito es superior a los métodos basados en confianza interna o heurísticas ad hoc.

4. Resultados Experimentales

Los experimentos se realizaron en VLMs congelados (LLaVA-Phi3, Gemma3, GLM-OCR) utilizando benchmarks estándar (IIIT5K, ICDAR 2013).

Reducción de Riesgo Catastrófico: El GRC reduce drásticamente la tasa de exposición catastrófica (Meltdown@2, definida como CER $\ge$ $\geq$ 200%).
- Ejemplo: En LLaVA-Phi3 con IIIT5K, la tasa de error catastrófico bajó del 33.7‰ (baseline) a 0.3‰ con el GRC, manteniendo una cobertura del ~89.5%.
Superioridad sobre Líneas Base:
- El GRC supera significativamente a las líneas base de "selección por confianza interna" (basadas en probabilidad de tokens), especialmente en la supresión de errores graves. La confianza interna a menudo es engañosa en modelos alucinados.
Compensación Controlable: Al aumentar el parámetro de estrictidad ( $m$ ), el sistema reduce la cobertura pero elimina casi todos los errores catastróficos, ofreciendo un punto de operación predecible y auditable.
Análisis de Coste: Un aumento moderado en el coste computacional (hasta 4.5x con $K=5$ ) es aceptable dado el beneficio masivo en fiabilidad.

5. Significado y Limitaciones

Significado: El trabajo demuestra que para sistemas de percepción generativa, la fiabilidad no depende solo de modelos más potentes, sino de mecanismos de control explícitos que verifiquen la consistencia geométrica y visual antes de exponer resultados. Transforma el OCR generativo de una caja negra a un sistema con contratos de servicio audibles.
Limitaciones:
- El sistema no elimina los errores "estables pero incorrectos" (donde todas las vistas concuerdan en una respuesta errónea).
- Actualmente se centra en texto a nivel de palabra en escenas; se requiere verificación a nivel de región para aplicaciones más complejas.

En conclusión, el artículo propone un marco práctico para desplegar OCR generativo de manera segura, priorizando la verificabilidad sobre la mera plausibilidad semántica.