DODO: Discrete OCR Diffusion Models

El artículo presenta DODO, un modelo de visión-lingüística que utiliza difusión discreta por bloques para superar las limitaciones de velocidad de los modelos autoregresivos en la reconocimiento óptico de caracteres (OCR), logrando una inferencia hasta tres veces más rápida sin sacrificar la precisión.

Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

Publicado 2026-02-20
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este papel es una receta para un nuevo tipo de "máquina de escribir" súper rápida y precisa llamada DODO.

Aquí te explico de qué trata, usando analogías sencillas:

1. El Problema: La Máquina de Escribir Lenta

Imagina que tienes que transcribir un libro entero de una foto.

  • Los modelos actuales (Autoregresivos): Son como un escriba muy cuidadoso. Lee una palabra, la escribe, luego lee la siguiente, la escribe, y así sucesivamente. Es muy preciso, pero si el libro es largo, tarda muchísimo. Es como si tuvieras que esperar a que termine la frase anterior para poder empezar la siguiente.
  • El problema: Para documentos largos, este método es lento y costoso.

2. La Idea Brillante: El Pintor Rápido

Los autores se dieron cuenta de que leer un texto (OCR) es diferente a escribir un poema o describir un dibujo.

  • Escribir un poema: Es flexible. Si dices "el gato saltó", también podrías decir "el felino brincó". Hay muchas formas correctas.
  • Leer un texto (OCR): Es rígido. Si en la foto dice "GATO", no puedes escribir "FELINO". Solo hay una respuesta correcta.

Como solo hay una respuesta correcta, los autores pensaron: "¡Podemos leer todo el texto de golpe, como un pintor que llena un lienzo de golpe, en lugar de ir línea por línea!". Esto se llama difusión paralela.

3. El Obstáculo: El Lienzo Roto

Intentaron usar esa técnica de "pintar de golpe" (difusión), pero algo salió mal.

  • La analogía del lienzo gigante: Imagina que intentas pintar un mapa de un país entero en un solo segundo. Si te equivocas en la posición de una ciudad (la pones muy a la izquierda), todo el mapa se desordena. Como el texto no permite "reparar" errores (no puedes decir "bueno, la palabra 'casa' está un poco a la derecha, pero suena igual"), el modelo se confundía, saltaba palabras o inventaba texto.
  • Resultado: Los modelos rápidos hacían muchos errores porque no podían corregirse a sí mismos una vez que empezaban.

4. La Solución DODO: Los Bloques de Construcción

Aquí entra la genialidad de DODO. En lugar de intentar pintar todo el mapa de golpe, decidieron hacerlo por bloques.

  • La analogía de los LEGO: Imagina que construyes una casa. En lugar de intentar poner todos los ladrillos del techo al mismo tiempo (y que se caigan), construyes un piso a la vez.
    1. Construyes el primer bloque de 256 palabras.
    2. Una vez que ese bloque está sólido y correcto, lo "fijas" (como un cimiento).
    3. Luego construyes el siguiente bloque basándote en el primero.

Esto les da lo mejor de dos mundos:

  • Velocidad: Dentro de cada bloque, pintan muchas palabras al mismo tiempo (¡muy rápido!).
  • Precisión: Como fijan cada bloque antes de pasar al siguiente, no pierden el orden ni se equivocan en la posición de las palabras.

5. El Resultado: Un Superpoder

Gracias a esta técnica de "bloques":

  • DODO es 3 veces más rápido que los escribas tradicionales (los modelos actuales).
  • Es igual de preciso: No comete errores de ortografía ni de orden.
  • Funciona en documentos complejos: Puede leer tablas, fórmulas matemáticas y textos densos sin perderse.

En Resumen

DODO es como un equipo de construcción que, en lugar de trabajar en fila india (uno tras otro), trabaja en equipos pequeños. Cada equipo termina su sección rápidamente y la deja lista para que el siguiente equipo empiece. Así, construyen el edificio (el documento) en una fracción del tiempo, pero con la misma solidez que si lo hubieran hecho lentamente.

Es la primera vez que logran que la tecnología de "pintar de golpe" funcione tan bien para leer documentos, rompiendo el cuello de botella de la velocidad en la digitalización de papeles.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →