Visual-ERM: Reward Modeling for Visual Equivalence

El artículo presenta Visual-ERM, un modelo de recompensa generativo multimodal que evalúa la equivalencia visual a nivel de píxel para optimizar el aprendizaje por refuerzo en tareas de conversión de visión a código, logrando mejoras significativas en la fidelidad visual y superando a modelos más grandes en benchmarks especializados.

Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

Publicado 2026-03-16
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un arquitecto muy talentoso pero un poco despistado (esto es el modelo de Inteligencia Artificial) a quien le pides que dibuje planos de edificios basándose en una foto de un edificio real.

El problema es que, hasta ahora, cuando el arquitecto se equivocaba, el "juez" que revisaba el trabajo era un poco torpe.

  • El Juez Antiguo (Método de Texto): Solo leía la lista de materiales escrita por el arquitecto. Si el arquitecto decía "hice un puente rojo" y el plano decía "puente rojo", el juez decía "¡Perfecto!". Pero si en el dibujo el puente era azul o estaba torcido, al juez no le importaba porque solo leyó las palabras.
  • El Juez Viejo (Método de Similitud Visual): Miraba la foto y el dibujo y decía "¡Se parecen mucho en general!". Pero si faltaba una ventana o una columna estaba en el lugar equivocado, el juez no se daba cuenta porque miraba el "conjunto" y no los detalles.

Aquí es donde entra la estrella de esta historia: Visual-ERM.

¿Qué es Visual-ERM? (El Inspector de Obra Supremo)

Visual-ERM es como un inspector de construcción experto y minucioso que tiene dos superpoderes:

  1. Ojos de Águila: No solo lee los planos (el código), sino que mira la foto final del edificio (la imagen renderizada) y la compara píxel por píxel con el original.
  2. Habla el idioma de los errores: En lugar de decir simplemente "está mal" o "está bien", le dice al arquitecto exactamente qué pasó: "Oye, la columna del lado izquierdo es de color verde en lugar de rojo (error de estilo), y la ventana del piso 3 está en el lugar equivocado (error de estructura)".

La Analogía de la "Copia de Seguridad"

Imagina que quieres copiar un dibujo complejo hecho por un niño.

  • Antes: Le dabas al niño el dibujo original y le decías: "Haz una copia". Él hacía un borrador, lo escribía en papel (código), y luego tú comparabas el papel con el dibujo. Si faltaba un color, el sistema antiguo no lo veía.
  • Con Visual-ERM: El niño hace el dibujo, lo pinta, y luego Visual-ERM toma una foto de lo que pintó y la pone al lado del original.
    • Si el niño pintó el sol cuadrado en lugar de redondo, Visual-ERM dice: "¡Error! El sol es cuadrado. Tienes que corregirlo".
    • Si el niño cambió el color del cielo de azul a gris, Visual-ERM dice: "El cielo debería ser azul".

Gracias a estos comentarios tan específicos, el niño (la IA) aprende mucho más rápido y hace copias perfectas.

¿Por qué es tan importante esto?

El papel explica que, con este nuevo "Inspector", los resultados mejoraron drásticamente en tres áreas clave:

  1. Gráficos (Charts): Si pides un gráfico de barras para una empresa, Visual-ERM asegura que las barras tengan la altura exacta y los colores correctos. Antes, la IA podía inventar datos que parecían bien en el texto pero que en el gráfico eran mentiras.
  2. Tablas (Tables): Si pides convertir una foto de una tabla de Excel a código, Visual-ERM se asegura de que los números no se mezclen y que las celdas estén alineadas perfectamente.
  3. Dibujos Vectoriales (SVG): Si pides recrear un icono o un logotipo, Visual-ERM vigila que las curvas y las líneas sean idénticas a las originales.

El "Gimnasio" de Entrenamiento (VC-RewardBench)

Para asegurarse de que su "Inspector" fuera el mejor, los creadores construyeron un gimnasio de entrenamiento llamado VisualCritic-RewardBench.

  • Es como un examen final donde mostraron miles de pares de dibujos (uno original y uno con errores sutiles) a diferentes IAs.
  • El resultado fue sorprendente: Visual-ERM, que es un modelo de tamaño medio (8B), superó a gigantes de la industria (modelos de 235B o incluso modelos privados de otras empresas) en la capacidad de detectar estos pequeños errores.

En resumen

Esta investigación nos dice que para que una Inteligencia Artificial aprenda a "dibujar" o "reconstruir" imágenes a partir de código, no basta con que le digas "está bien" o "está mal". Necesita un maestro que le señale exactamente dónde está el error visual.

Visual-ERM es ese maestro. Al darle a la IA comentarios visuales detallados y precisos, logramos que las máquinas puedan convertir fotos de gráficos, tablas y dibujos en código perfecto, algo que antes era muy difícil y propenso a errores. ¡Es como pasar de tener un alumno que adivina a tener un alumno que entiende la perfección!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →