CodePercept: Code-Grounded Visual STEM Perception for MLLMs

El artículo "CodePercept" identifica que las limitaciones en el razonamiento visual STEM de los modelos de lenguaje multimodal (MLLM) se deben principalmente a deficiencias perceptivas, proponiendo un nuevo paradigma que utiliza código ejecutable como medio de percepción para generar el dataset ICC-1M y el benchmark STEM2Code-Eval, logrando así una comprensión visual más precisa y verificable.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial (IA) que ven y piensan (llamados MLLM) son como estudiantes muy inteligentes pero un poco torpes al dibujar.

Este paper, llamado CodePercept, descubre un secreto fundamental sobre por qué estos estudiantes fallan en matemáticas, física y ciencias, y les da una herramienta mágica para mejorar: el código de programación.

Aquí tienes la explicación, desglosada con analogías sencillas:

1. El Problema: ¿Es que no piensan bien o que no ven bien?

Imagina que le pones a un estudiante un problema de geometría con una figura compleja. Si el estudiante falla, ¿es porque no sabe la fórmula matemática (razonamiento) o porque no ha entendido bien dónde están los puntos y las líneas en el dibujo (percepción)?

Los autores hicieron una prueba gigante:

  • Si mejoraban solo la capacidad de "pensar" (razonamiento) del estudiante, sus notas subían un poquito.
  • Si mejoraban solo la capacidad de "ver" (percepción) del estudiante, sus notas disparaban.

La conclusión: El verdadero cuello de botella no es la inteligencia, es la ceguera. Los modelos no "ven" los detalles precisos de los gráficos científicos.

2. La Solución: El Código como "Lente de Alta Definición"

Aquí entra la idea brillante del paper. Normalmente, cuando describimos una imagen, usamos palabras (ej: "un triángulo rojo en la esquina"). Pero las palabras son ambiguas; ¿qué tan rojo? ¿Qué tan grande? ¿Exactamente en qué coordenada?

El paper propone usar código de programación (Python) como el lenguaje de la visión.

  • Analogía: Imagina que en lugar de pedirle al estudiante que te describa un dibujo con palabras, le pides que escriba las instrucciones exactas para que una máquina lo dibuje de nuevo.
  • Si el código dice "dibuja un círculo en la coordenada (5,5) con radio 2", no hay lugar para la duda. Si el dibujo final no coincide, el código es incorrecto.
  • Esto obliga a la IA a ser precisa. No puede alucinar (inventar cosas) porque el código tiene que ejecutarse y funcionar.

3. Las Tres Herramientas Mágicas (El Entrenamiento)

Para enseñarles esto a las IAs, crearon tres cosas:

  1. El "Diccionario de Código" (ICC-1M): Crearon un libro de texto gigante con 1 millón de ejemplos. Cada ejemplo tiene:

    • La imagen científica.
    • Una descripción en lenguaje normal (para que entienda el contexto).
    • El código exacto que dibuja esa imagen.
    • Analogía: Es como tener un libro donde cada problema de física viene con la solución escrita en un lenguaje de programación que no admite errores.
  2. Dos Nuevas Tareas de Estudio:

    • Descripción basada en Código: En lugar de que la IA describa la imagen directamente (y se equivoque), primero le pedimos que "piense" en el código para dibujarla, y luego use esa estructura para escribir una descripción perfecta. Es como si un arquitecto primero hiciera los planos técnicos antes de explicar la casa a un cliente.
    • Traducción Imagen a Código: Entrenamos a la IA para que, al ver una imagen, escriba el código para reproducirla. Esto elimina la ambigüedad del lenguaje humano.
  3. El Examen Final (STEM2Code-Eval):

    • Antes, evaluábamos a las IAs preguntándoles: "¿Cuál es la respuesta a este problema de física?". Si acertaban, decíamos que eran buenas. Pero quizás adivinaron.
    • Ahora, el examen es: "Mira esta imagen compleja y escribe el código para dibujarla exactamente igual".
    • Si el código funciona y la imagen resultante es idéntica, ¡aprobaron! Es una prueba irrefutable de que realmente "vieron" la imagen.

4. Los Resultados: ¡Funciona!

Cuando entrenaron a los modelos con este método (CodePercept):

  • Se volvieron mucho mejores describiendo imágenes científicas.
  • Al usar esas descripciones precisas para resolver problemas, sus notas en matemáticas y ciencias subieron drásticamente.
  • Incluso modelos pequeños (de 8 mil millones de parámetros) con este entrenamiento superaron a modelos gigantes (de 72 mil millones) que no tenían este entrenamiento.

En Resumen

El paper nos dice que para que la Inteligencia Artificial sea buena en ciencias, no necesitamos que piense más, necesita "ver" mejor. Y la mejor manera de enseñarle a ver con precisión es obligarla a escribir el código que recrea lo que ve.

Es como pasar de pedirle a un artista que "dibuje un paisaje bonito" (subjetivo) a darle un plano arquitectónico exacto (código) para que lo construya. Al hacerlo, el artista aprende a ver los detalles que antes ignoraba.