Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de cocina (que es el modelo de inteligencia artificial) que sabe cocinar platos básicos, pero le cuesta mucho preparar recetas complejas que requieren varios pasos, como un pastel de tres pisos o un guiso con muchos ingredientes.

El problema es que para enseñarle a cocinar esas recetas difíciles, normalmente necesitarías miles de chefs humanos expertos que te escribieran las instrucciones paso a paso. Pero en el mundo de los gráficos, documentos y páginas web, esos "chef-expertos" son muy escasos y costosos.

Aquí es donde entra COGS, la nueva idea de este paper.

La Analogía: El "Kit de Bloques de Construcción"

Imagina que COGS es como un kit de bloques de construcción (tipo LEGO) para enseñar a tu chef.

El Punto de Partida (Las Semillas):
Tienes un puñado pequeño de recetas difíciles (preguntas de ejemplo) que ya tienes. Por ejemplo: "¿Cuál es la diferencia entre el crecimiento de la energía y el de los servicios públicos?".
En lugar de darle esta receta entera al chef, COGS la desmonta.
- Paso 1: Leer el número de energía.
- Paso 2: Leer el número de servicios públicos.
- Paso 3: Restar uno del otro.
  Estos pasos individuales son los "factores" o bloques básicos.
La Magia (La Recombinación):
Aquí viene lo genial. COGS toma esos bloques sueltos (leer números, restar, comparar) y los mezcla con nuevas imágenes que el chef nunca ha visto antes (nuevos gráficos o páginas web).
- ¡Pum! De repente, puedes crear miles de nuevas recetas.
- Ejemplo: Tomas el bloque de "leer temperatura" y el bloque de "restar", y los aplicas a un gráfico de clima nuevo. ¡Listo! Tienes una nueva pregunta de entrenamiento sin que un humano tenga que escribirla.
El Entrenamiento (El Premio por el Camino):
Cuando entrenamos al chef (el modelo de IA), no solo le decimos si la respuesta final es correcta o incorrecta. COGS le da premios intermedios.
- Si el chef identifica bien el número (Paso 1), ¡premio!
- Si luego lo resta bien (Paso 2), ¡otro premio!
- Esto es como si un entrenador de fútbol no solo mirara si el gol entró, sino que premiara también si el jugador hizo bien el pase previo. Así, el chef aprende a pensar paso a paso, no a adivinar la respuesta final.

¿Por qué es importante?

Ahorro de tiempo y dinero: No necesitas miles de humanos escribiendo preguntas. Con unas pocas (las "semillas"), COGS genera millones de ejemplos de entrenamiento.
Mejor razonamiento: El modelo deja de ser un "adivino" que salta a la respuesta y se convierte en un "pensador" que sigue un camino lógico. Funciona muy bien en preguntas difíciles que requieren varios pasos (como calcular promedios o comparar tendencias).
Generalización: Lo que aprende con un tipo de gráfico (por ejemplo, de energía) lo puede aplicar a otro (por ejemplo, de ventas en una página web), porque ha aprendido las "reglas del juego" (los bloques básicos) y no solo a memorizar respuestas.

En resumen

COGS es como un maestro de artes marciales que toma un puñado de movimientos básicos (leer, comparar, calcular) y los entrena con miles de oponentes nuevos (imágenes nuevas) para que el alumno (la IA) aprenda a pelear en cualquier situación, sin necesidad de que un maestro humano esté presente en cada entrenamiento.

El resultado es una IA mucho más inteligente, capaz de entender gráficos, documentos y webs complejas, razonando paso a paso como lo haría un humano.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: COGS (Síntesis de Datos Basada en Composición para el Razonamiento Visual)

1. El Problema

Los Modelos de Lenguaje Multimodal Grandes (MLLMs) preentrenados han demostrado un rendimiento sólido en diversas tareas multimodales. Sin embargo, carecen de capacidades de razonamiento avanzado, especialmente en dominios de imágenes artificiales (como gráficos, documentos renderizados y páginas web) donde es difícil recopilar grandes conjuntos de datos humanos anotados con preguntas de razonamiento.

Limitación actual: Aunque existen muchas imágenes de este tipo en la web, los datos de entrenamiento que requieren razonamiento paso a paso (en lugar de simple reconocimiento) son escasos.
Desafío: Desarrollar MLLMs que puedan manejar consultas de razonamiento intensivo en estos dominios sin depender de la anotación masiva manual, que es costosa y lenta.

2. Metodología: El Marco COGS

Los autores proponen COGS (COmposition-Grounded data Synthesis), un marco eficiente en datos diseñado para dotar a los MLLMs de capacidades de razonamiento avanzadas partiendo de un pequeño conjunto de preguntas "semilla" (seed questions). La idea central es la composicionalidad: descomponer preguntas complejas en factores primitivos y recombinarlos.

El proceso consta de tres etapas principales:

A. Descomposición de Datos Semilla (Seed Data Decomposition)

Dado un pequeño conjunto de preguntas de razonamiento en el dominio objetivo, se utiliza un MLLM para descomponer cada pregunta en sus factores constituyentes.
Estos factores se dividen en:
- Factores de Percepción: Identificación de elementos, lectura de números, localización espacial.
- Factores de Razonamiento: Comparación, cálculo aritmético, verificación de hechos, extrapolación.
Cada factor se representa con una etiqueta de categoría (ej. "Cálculo") y una subpregunta asociada que describe el paso lógico. Esto crea un "pool" de factores ( $F$ ) extraído de las preguntas originales.

B. Generación de Preguntas por Recombinación (Question Generation via Factor Recomposition)

Se toma una nueva imagen (sin etiquetar, por ejemplo, un gráfico o captura de pantalla de una web) y una muestra aleatoria de factores del pool $F$ .
El MLLM recombina estos factores para generar nuevas preguntas complejas y coherentes, ancladas visualmente en la nueva imagen.
Ventaja clave: El sistema genera no solo la pregunta final y su respuesta, sino también las subpreguntas intermedias y sus respuestas correspondientes. Esto crea un conjunto de datos sintético masivo y diverso sin necesidad de anotación humana adicional.
En dominios estructurados (como gráficos), se aprovechan los metadatos subyacentes (tablas de datos) para mejorar la precisión de las respuestas.

C. Ajuste Fino con Aprendizaje por Refuerzo (RL Fine-tuning)

Se utiliza Optimización de Política Relativa de Grupo (GRPO) para ajustar fino un MLLM preentrenado.
Recompensas de Proceso (Process Rewards): A diferencia de los métodos tradicionales que solo recompensan la respuesta final correcta, COGS utiliza las subpreguntas generadas para definir recompensas a nivel de factor.
- Se evalúa si el modelo obtuvo correctamente cada paso intermedio (subrespuesta).
- Se proponen tres modelos de recompensa:
  1. StandardRM: Solo evalúa la respuesta final.
  2. ProcessRM-sum: Suma la precisión de la respuesta final y la tasa de aciertos de las subpreguntas.
  3. ProcessRM-max: Prioriza la respuesta final pero da forma a la recompensa si los pasos intermedios son correctos. Los autores demuestran teóricamente y empíricamente que ProcessRM-max preserva mejor el orden de las políticas bajo señales de ruido, evitando el desordenamiento de las políticas de aprendizaje.

3. Contribuciones Clave

Marco Eficiente de Síntesis de Datos: COGS permite escalar el entrenamiento de razonamiento visual a partir de un conjunto de datos semilla muy pequeño, superando la barrera de la falta de datos anotados.
Estructura de Factores y Recompensas de Proceso: Introduce un enfoque novedoso donde el entrenamiento por refuerzo se guía por la corrección de pasos intermedios (factores), no solo por el resultado final, lo que fomenta un razonamiento más robusto y menos propenso a errores de acumulación.
Generalización y Transferencia: Demuestra que la mezcla de factores (factor-level mixture) entre diferentes conjuntos de datos (ej. gráficos y web) genera capacidades transferibles, evitando el sobreajuste a un dominio específico.
Validación en Múltiples Dominios: El método se valida exitosamente en dos dominios distintos: Razonamiento de Gráficos (ChartQAPro, MMC) y Comprensión de Interfaz Gráfica de Usuario/Web (VisualWebBench).

4. Resultados Experimentales

Los experimentos se realizaron principalmente sobre el modelo base Qwen2.5-VL-7B:

Rendimiento en Gráficos (ChartQAPro):
- COGS alcanzó una precisión general del 52.02%, superando significativamente a los modelos base (47.36%), modelos especialistas (ej. ChartMoE: 27.28%) y otros enfoques de síntesis de datos.
- Las mejoras fueron más pronunciadas en preguntas de razonamiento pesado y composicionales (múltiples pasos).
- La mezcla de factores entre conjuntos de datos (ChartQAPro + MMC) mejoró el rendimiento en ambos dominios simultáneamente, demostrando una transferencia positiva.
Rendimiento en Web (VisualWebBench):
- COGS logró un 88.04% de precisión, superando a todos los modelos de código abierto y a modelos especialistas como UiX-Qwen2 (68.90%).
- Esto confirma que el marco es generalizable más allá de los gráficos.
Análisis de Ablación:
- Tamaño de la semilla: El rendimiento mejora a medida que aumenta el tamaño del conjunto de preguntas semilla, pero incluso con un 33% de los datos disponibles se obtienen ganancias sustanciales.
- Modelo de Recompensa: El uso de ProcessRM-max superó consistentemente a StandardRM y ProcessRM-sum, validando la teoría de que las recompensas basadas en el máximo preservan el orden de las políticas frente al ruido en las señales intermedias.
- Descomposición en tiempo de inferencia vs. Entrenamiento: COGS (entrenamiento) superó a la descomposición en tiempo de inferencia, ya que el entrenamiento con recompensas de proceso mitiga la acumulación de errores en las cadenas de razonamiento.

5. Significado e Impacto

El trabajo de COGS es significativo porque ofrece una solución escalable al cuello de botella de los datos anotados en el razonamiento visual. Al descomponer el razonamiento en factores primitivos y recombinarlos, el método:

Democratiza el entrenamiento de razonamiento: Permite crear datasets de alta calidad para dominios nicho sin necesidad de anotadores humanos masivos.
Mejora la interpretabilidad: Al forzar al modelo a aprender pasos intermedios, se reduce el "pensamiento mágico" y se fomenta una lógica más transparente.
Abre nuevas direcciones: Sugiere que la mezcla de datos a nivel de factores (en lugar de solo a nivel de instancias) es una estrategia superior para el entrenamiento de modelos fundacionales, con potencial aplicación en agentes de IA para edición de documentos y navegación web.

En resumen, COGS demuestra que la síntesis de datos guiada por la composición es una vía viable y potente para equipar a los MLLMs con capacidades de razonamiento humano-like en dominios visuales complejos.

Composition-Grounded Data Synthesis for Visual Reasoning

La Analogía: El "Kit de Bloques de Construcción"

¿Por qué es importante?

En resumen

Resumen Técnico: COGS (Síntesis de Datos Basada en Composición para el Razonamiento Visual)

1. El Problema

2. Metodología: El Marco COGS

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers