ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong

Publicado Wed, 11 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Imagina que tienes una pila de documentos antiguos, facturas complejas, artículos científicos con muchas tablas y gráficos, y todo escrito en inglés. Tu trabajo es traducirlos al chino, pero no puedes simplemente copiar y pegar el texto. Tienes que mantener el diseño original: si el texto estaba en dos columnas, debe seguir en dos columnas; si había una tabla, debe seguir siendo una tabla; si había notas al pie, deben seguir ahí.

Eso es exactamente lo que intentaron resolver los participantes del Desafío DIMT 2025, un concurso de inteligencia artificial descrito en este documento.

Aquí te explico cómo funcionó, usando analogías sencillas:

1. El Problema: Traducir "caos" visual

Traducir un texto plano es como leer una novela: vas de izquierda a derecha y de arriba a abajo. Pero los documentos reales son como laberintos. Tienen recuadros, imágenes, texto pequeño en las esquinas y tablas que cruzan la página.

Si le pides a una máquina que traduzca esto, a menudo se pierde. ¿De dónde empieza a leer? ¿Qué va primero? ¿Es un título o es parte de una tabla?

  • El desafío: Crear un "traductor mágico" que no solo entienda las palabras, sino que también "vea" la página tal como un humano la ve, respetando el diseño.

2. Las Dos Vías de Acceso (Las "Pistas")

El concurso dividió a los participantes en dos caminos, como si fueran dos tipos de arquitectos:

  • La Pista 1: Con "Gafas de Lectura" (OCR-based)

    • La analogía: Imagina que le das al traductor una foto de un documento, pero también le das una lista que ya alguien escribió a mano con todas las palabras y dónde están ubicadas.
    • La tarea: El problema aquí es que esa lista suele estar desordenada (como un rompecabezas tirado en el suelo). El modelo debe reordenar las piezas (saber que la palabra "A" va antes que la "B" aunque en la lista aparezcan al revés) y luego traducirlas manteniendo el orden correcto.
    • Resultado: Funcionó muy bien. Al tener las palabras ya extraídas, el modelo se centró en ordenarlas y traducirlas.
  • La Pista 2: Sin "Gafas" (OCR-free)

    • La analogía: Esta es la prueba de fuego. Le das al traductor solo la foto. No tiene lista de palabras, no tiene ayuda. Tiene que mirar la imagen, "leer" lo que hay dentro (como si fuera un humano viendo una foto), entender el diseño y traducirlo todo de una sola vez.
    • La tarea: Es como pedirle a un artista que copie un cuadro complejo y lo pinte en otro idioma, sin poder tocar los pinceles originales.
    • Resultado: Fue más difícil, pero los modelos más grandes lograron resultados sorprendentes, acercándose a la calidad de la Pista 1.

3. Los Competidores: "Gigantes" vs. "Pequeños"

El concurso también dividió a los equipos por el tamaño de sus "cerebros" (sus modelos de IA):

  • Los Gigantes (Modelos Grandes > 1 mil millones de parámetros):

    • Son como orquestas completas con cientos de músicos. Tienen mucha memoria y pueden entender matices complejos, ironías y estructuras raras.
    • Resultado: ¡Ganaron! Los equipos que usaron estos "cerebros gigantes" (como los modelos InternVL o Qwen) obtuvieron las mejores puntuaciones. Pudieron manejar documentos muy confusos mejor que nadie.
  • Los Pequeños (Modelos < 1 mil millones de parámetros):

    • Son como solistas talentosos o un grupo de cámara. Tienen menos recursos y memoria, pero son más rápidos y baratos de usar.
    • Resultado: Aunque no ganaron por mucho margen, demostraron que con un entrenamiento muy específico (como estudiar mucho para un examen concreto), pueden hacer un trabajo decente. Son ideales si no tienes un superordenador para traducir documentos.

4. ¿Qué aprendimos de todo esto?

El informe nos cuenta tres cosas importantes:

  1. El tamaño importa (pero no todo): Los modelos gigantes son los mejores traductores de documentos complejos. Son como tener un traductor experto que también es un diseñador gráfico.
  2. El entrenamiento es la clave: Los que ganaron no solo usaron modelos grandes, sino que los "entrenaron" específicamente con miles de ejemplos de documentos similares. Fue como darle al traductor un curso intensivo de "cómo se ven los documentos reales" antes de empezar.
  3. El futuro es "sin ayuda": Aunque hoy es más fácil traducir si ya tienes las palabras extraídas (Pista 1), el futuro está en que la IA pueda mirar una foto y traducirla sola (Pista 2). Estamos muy cerca de que esto sea perfecto.

En resumen

Este documento describe una carrera de ingenio donde equipos de todo el mundo intentaron enseñar a las computadoras a traducir documentos visuales complejos.

  • El ganador: Los modelos grandes que pueden "ver" y "leer" al mismo tiempo.
  • La lección: Para que la IA entienda el mundo real (con sus tablas, columnas y gráficos), no basta con que sepa idiomas; tiene que entender dónde está escrito cada cosa.

Es un paso gigante hacia un futuro donde podrás tomar una foto de un manual técnico en inglés, apuntar con tu teléfono, y obtener una traducción perfecta al chino, manteniendo todas las tablas y gráficos en su lugar, sin que nadie tenga que reordenar el texto manualmente.