Composition-Grounded Data Synthesis for Visual Reasoning

El artículo presenta COGS, un marco eficiente en datos que mejora las capacidades de razonamiento de los modelos de lenguaje multimodal en dominios como gráficos y documentos renderizados, mediante la síntesis de grandes conjuntos de datos de preguntas y respuestas a partir de semillas limitadas y el entrenamiento con recompensas de proceso a nivel de factores.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

Publicado 2026-03-05
📖 3 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de cocina (que es el modelo de inteligencia artificial) que sabe cocinar platos básicos, pero le cuesta mucho preparar recetas complejas que requieren varios pasos, como un pastel de tres pisos o un guiso con muchos ingredientes.

El problema es que para enseñarle a cocinar esas recetas difíciles, normalmente necesitarías miles de chefs humanos expertos que te escribieran las instrucciones paso a paso. Pero en el mundo de los gráficos, documentos y páginas web, esos "chef-expertos" son muy escasos y costosos.

Aquí es donde entra COGS, la nueva idea de este paper.

La Analogía: El "Kit de Bloques de Construcción"

Imagina que COGS es como un kit de bloques de construcción (tipo LEGO) para enseñar a tu chef.

  1. El Punto de Partida (Las Semillas):
    Tienes un puñado pequeño de recetas difíciles (preguntas de ejemplo) que ya tienes. Por ejemplo: "¿Cuál es la diferencia entre el crecimiento de la energía y el de los servicios públicos?".
    En lugar de darle esta receta entera al chef, COGS la desmonta.

    • Paso 1: Leer el número de energía.
    • Paso 2: Leer el número de servicios públicos.
    • Paso 3: Restar uno del otro.
      Estos pasos individuales son los "factores" o bloques básicos.
  2. La Magia (La Recombinación):
    Aquí viene lo genial. COGS toma esos bloques sueltos (leer números, restar, comparar) y los mezcla con nuevas imágenes que el chef nunca ha visto antes (nuevos gráficos o páginas web).

    • ¡Pum! De repente, puedes crear miles de nuevas recetas.
    • Ejemplo: Tomas el bloque de "leer temperatura" y el bloque de "restar", y los aplicas a un gráfico de clima nuevo. ¡Listo! Tienes una nueva pregunta de entrenamiento sin que un humano tenga que escribirla.
  3. El Entrenamiento (El Premio por el Camino):
    Cuando entrenamos al chef (el modelo de IA), no solo le decimos si la respuesta final es correcta o incorrecta. COGS le da premios intermedios.

    • Si el chef identifica bien el número (Paso 1), ¡premio!
    • Si luego lo resta bien (Paso 2), ¡otro premio!
    • Esto es como si un entrenador de fútbol no solo mirara si el gol entró, sino que premiara también si el jugador hizo bien el pase previo. Así, el chef aprende a pensar paso a paso, no a adivinar la respuesta final.

¿Por qué es importante?

  • Ahorro de tiempo y dinero: No necesitas miles de humanos escribiendo preguntas. Con unas pocas (las "semillas"), COGS genera millones de ejemplos de entrenamiento.
  • Mejor razonamiento: El modelo deja de ser un "adivino" que salta a la respuesta y se convierte en un "pensador" que sigue un camino lógico. Funciona muy bien en preguntas difíciles que requieren varios pasos (como calcular promedios o comparar tendencias).
  • Generalización: Lo que aprende con un tipo de gráfico (por ejemplo, de energía) lo puede aplicar a otro (por ejemplo, de ventas en una página web), porque ha aprendido las "reglas del juego" (los bloques básicos) y no solo a memorizar respuestas.

En resumen

COGS es como un maestro de artes marciales que toma un puñado de movimientos básicos (leer, comparar, calcular) y los entrena con miles de oponentes nuevos (imágenes nuevas) para que el alumno (la IA) aprenda a pelear en cualquier situación, sin necesidad de que un maestro humano esté presente en cada entrenamiento.

El resultado es una IA mucho más inteligente, capaz de entender gráficos, documentos y webs complejas, razonando paso a paso como lo haría un humano.