OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Este estudio demuestra que, en la era de los Modelos de Lenguaje Multimodales (MLLM), es posible extraer información de documentos complejos sin necesidad de OCR, logrando un rendimiento comparable mediante el uso de entradas de imagen puras optimizadas con esquemas y ejemplos cuidadosamente diseñados.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, Yifan Mai, Daniel Dahlmeier

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes una pila enorme de facturas, contratos y recibos en papel (o en PDF) que necesitas convertir en una lista ordenada en tu computadora. Antiguamente, para hacer esto, necesitabas un equipo de dos personas trabajando en cadena:

  1. El "Fotógrafo" (OCR): Primero, una máquina especial tomaba una foto de cada letra del documento y la convertía en texto digital. A veces, este fotógrafo se equivocaba: confundía una "O" con un cero "0", o no veía bien una letra borrosa.
  2. El "Contador" (IA): Luego, un segundo programa (una Inteligencia Artificial) leía ese texto que el fotógrafo había escrito y trataba de entender: "Ah, esto es la fecha, esto es el precio".

El problema es que si el fotógrafo se equivocaba al principio, el contador también fallaba, y todo el proceso era lento y complicado.

¿Qué descubrieron en este estudio?

Los autores de este artículo (expertos de SAP y Stanford) se preguntaron: "¿Realmente necesitamos al 'Fotógrafo' (OCR) si tenemos un 'Super-Contador' (una IA moderna) que es tan inteligente que puede ver la foto directamente?"

Para responder, probaron a los mejores "Super-Contadores" (modelos de IA multimodales como GPT-4o, Gemini, Claude) con tres métodos:

  1. Solo usando el texto que el fotógrafo escribió (el método antiguo).
  2. Solo mostrando la foto del documento a la IA (el método nuevo).
  3. Mostrando la foto Y el texto escrito juntos.

Las Sorpresas (Analogías)

1. El Super-Contador no necesita ayuda:
Descubrieron que, para los modelos más potentes, el "Fotógrafo" (OCR) a veces es innecesario e incluso molesto.

  • La analogía: Imagina que tienes a un genio que puede leer un libro en una foto borrosa. Si le das el texto escrito por una máquina torpe (el OCR), el genio se confunde porque la máquina escribió mal las palabras. Pero si le das la foto original, el genio usa su propia "vista" para leerlo perfectamente, ignorando los errores de la máquina.
  • Resultado: En muchos casos, la IA que ve la foto sola funcionó tan bien o incluso mejor que la que usaba el texto escrito por la máquina.

2. Más grande no siempre es mejor (pero casi):
Generalmente, las IAs más grandes son más inteligentes. Pero descubrieron algo curioso: a veces, una IA pequeña pero muy bien entrenada para "ver" funciona mejor que una gigante si le das el texto mal escrito por el OCR. Es como si el "Fotógrafo" torpe le estuviera dando un mal mapa a un conductor experto.

3. El error humano (y de máquina):
Para entender por qué fallaban, crearon un "Detective Automático". Este detective revisa cada error y lo clasifica:

  • ¿Fue un error de lectura? (La IA vio mal la foto).
  • ¿Fue un error de lógica? (La IA no entendió qué era el precio y qué era la fecha).
  • ¿Fue culpa del "Fotógrafo"? (El texto que le dieron estaba mal).

El detective encontró que, cuando se usa solo la foto, la IA comete menos errores de "confusión de formato" porque puede ver el diseño original del papel (dónde están las cajas, las líneas, los espacios).

¿Qué significa esto para el futuro?

El mensaje principal es muy sencillo: La tecnología ha avanzado tanto que ya no necesitamos obligatoriamente el paso intermedio de convertir todo a texto antes de analizarlo.

  • Antes: Foto -> Texto (OCR) -> Análisis (IA).
  • Ahora: Foto -> Análisis (IA).

Esto es como pasar de tener que transcribir una carta a mano para poder leerla, a simplemente tener a alguien que lee la carta directamente desde el papel. Es más rápido, más barato y, a veces, más preciso.

Conclusión con una metáfora final

Imagina que quieres saber qué hay dentro de una caja cerrada.

  • El método antiguo: Alguien abre la caja, escribe una lista de lo que ve en un papel (a veces escribiendo mal las palabras) y luego tú lees ese papel para entender qué hay.
  • El método nuevo: Le das la caja cerrada a un robot con ojos de águila. El robot mira a través de la caja (o la abre con sus propios ojos) y te dice exactamente qué hay, sin necesidad de que nadie escriba nada antes.

Este estudio nos dice que, gracias a los nuevos "robots con ojos de águila" (las IAs modernas), podemos simplificar nuestros procesos de trabajo, eliminar pasos innecesarios y hacer las cosas más rápido y mejor. ¡Y eso es una gran noticia para las empresas!