A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Este artículo presenta un enfoque híbrido de Vision Transformer con codificación posicional 2D y un decodificador de atención de cobertura para el reconocimiento de expresiones matemáticas, logrando un puntaje BLEU de 89.94 en el conjunto de datos IM2LATEX-100K y superando a los métodos más avanzados actuales.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un libro de matemáticas antiguo lleno de fórmulas complejas dibujadas a mano o impresas, y tu trabajo es convertir esas imágenes en texto digital que una computadora pueda entender (como el código LaTeX que usan los científicos).

El problema es que las fórmulas matemáticas no son como una frase normal. Una frase es una línea recta (izquierda a derecha), pero una fórmula es como un mapa de ciudad: tiene edificios (símbolos) que están arriba, abajo, a la izquierda, a la derecha, y algunos son gigantes (como una fracción enorme) y otros son diminutos (como un índice pequeño).

Los métodos antiguos intentaban leer esto como si fuera una lista de compras, lo cual fallaba mucho. Este paper presenta una nueva solución llamada Hybrid Vision Transformer (HVT) que funciona como un arquitecto inteligente en lugar de un simple lector.

Aquí te explico cómo funciona, paso a paso, con analogías sencillas:

1. El Arquitecto (El Codificador o "Encoder")

Imagina que el sistema tiene dos ayudantes principales trabajando juntos:

  • El Ojo de Águila (La Red Neuronal CNN): Primero, el sistema mira la imagen de la fórmula con un "ojo de águila". Este ojo es experto en ver detalles locales: "Aquí hay un signo más, aquí hay un número 5". Es como si un pintor hiciera un boceto rápido de los elementos individuales.
  • El Director de Orquesta (El Vision Transformer o ViT): Aquí es donde entra la magia. Una vez que el "Ojo de Águila" ha hecho el boceto, el "Director de Orquesta" toma el control. A diferencia de los métodos viejos que leían símbolo por símbolo en orden, este director puede mirar toda la partitura de golpe.
    • ¿Por qué es importante? Porque en matemáticas, lo que está arriba (un exponente) depende de lo que está abajo (la base), aunque estén separados por mucho espacio. El Director de Orquesta conecta todos los puntos a la vez, entendiendo la relación global de la fórmula.
    • El Truco de las Coordenadas (Codificación 2D): Como las fórmulas tienen altura y anchura, el sistema les pone "etiquetas de GPS" (codificación 2D) a cada símbolo. Así, el sistema sabe exactamente que un símbolo está "arriba a la derecha" y no solo "después de este otro".

2. El Traductor con Memoria (El Decodificador)

Una vez que el sistema ha entendido la estructura de la fórmula, necesita escribirla en código (LaTeX). Aquí usan un traductor con memoria de largo plazo.

  • El Token [CLS] como el "Jefe": El sistema tiene un símbolo especial llamado [CLS] que actúa como un resumen de toda la imagen. Imagina que es el capitán del barco que ha visto todo el mapa. En lugar de empezar a escribir desde cero, el traductor le pregunta al capitán: "¿Cuál es la idea general de esta fórmula?". El capitán le da el punto de partida perfecto.
  • La Cinta de Memoria (Atención de Cobertura): A veces, los traductores se confunden y repiten palabras (sobre-interpretación) o se saltan partes (sub-interpretación). Para evitar esto, el sistema lleva una "cinta de memoria" (vector de cobertura) que le dice: "Oye, ya leíste esa parte de la imagen hace un momento, no la mires de nuevo". Esto asegura que el sistema recorra la fórmula de manera ordenada y completa, sin perderse ni repetir.

3. El Resultado: ¡Una Máquina de Precisión!

Los autores probaron su sistema en un banco de pruebas muy difícil llamado IM2LATEX-100K (que tiene más de 100,000 fórmulas matemáticas).

  • El Logro: Su sistema logró un puntaje de 89.94 (una medida de precisión llamada BLEU), superando a todos los métodos anteriores.
  • ¿Qué significa esto? Significa que si le das una foto de una fórmula matemática compleja, tu computadora puede transcribirla casi perfectamente, entendiendo no solo los números, sino también la estructura espacial (qué va arriba, qué va abajo, qué es una fracción).

En Resumen

Piensa en este método como pasar de tener un lector de libros que solo ve una palabra a la vez a tener un arquitecto experto que puede ver todo el edificio, entender cómo se conectan las habitaciones (símbolos) entre sí, y luego escribir las instrucciones de construcción (LaTeX) sin cometer errores.

Han logrado que las computadoras "vean" y "entiendan" las matemáticas de una manera mucho más humana y precisa, lo cual es un gran paso para digitalizar el conocimiento científico.