Retrieving Counterfactuals Improves Visual In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero a veces un poco despistado, que es experto en ver imágenes y responder preguntas sobre ellas. A este amigo lo llamaremos el Modelo de Visión.

El problema es que, aunque este amigo es muy listo, a veces comete errores tontos. Por ejemplo, si le muestras una foto de un pájaro con el pecho gris, él podría decir: "¡Es un gorrión!". Pero si le muestras otro pájaro idéntico, pero con el pecho blanco, él podría decir: "¡Es un canario!".

¿Por qué falla? Porque el amigo solo mira parecidos superficiales. Si ve muchos pájaros grises que son gorriones, asume que todo pájaro gris es un gorrión. No entiende la causa real: "El color del pecho es lo que define la especie, no el tamaño de las alas".

Aquí es donde entra la solución del artículo: CIRCLES.

La Analogía: El Detective y el "Qué pasaría si..."

Imagina que quieres enseñarle a tu amigo a identificar pájaros correctamente. Tienes dos formas de hacerlo:

El método antiguo (Búsqueda por Similitud):
Le muestras 10 fotos de pájaros que se parecen mucho al que tiene delante.
- Resultado: Si el pájaro de la foto es un "Gorrión de Montaña" y todos los ejemplos que le muestras son también "Gorrios de Montaña" (porque se parecen mucho), tu amigo aprende: "Pájaro gris = Gorrión". Se queda en la superficie. Si luego le muestras un pájaro gris que es un "Canario", se confundirá.
El método CIRCLES (Búsqueda de "Qué pasaría si..."):
Aquí es donde CIRCLES es genial. En lugar de solo buscar cosas que se parezcan, CIRCLES actúa como un detective de la realidad alternativa.
- Le dice al modelo: "Mira este pájaro gris. Ahora, imagina un mundo donde solo cambiamos el color de su pecho a blanco, pero todo lo demás sigue igual. ¿Qué pájaro sería ahora?".
- El sistema busca en su memoria ejemplos donde el pecho es blanco y el resto es igual.
- Le muestra al modelo: "¡Mira! Cuando el pecho es blanco, ¡es un Canario! Cuando el pecho es gris, ¡es un Gorrión!".

La metáfora del chef:
Imagina que estás aprendiendo a cocinar un guiso.

El método antiguo te da 10 recetas que usan exactamente los mismos ingredientes. Te vuelves experto en esa receta, pero si te falta un ingrediente, te rindes.
CIRCLES te da la receta original, y luego te dice: "¿Qué pasa si quitamos la sal? ¿Qué pasa si cambiamos el tomate por pimiento?". Al ver cómo cambia el sabor (el resultado) cuando cambias solo una cosa (el ingrediente), aprendes la causa real de por qué el guiso sabe como sabe.

¿Cómo funciona CIRCLES en la vida real?

El artículo propone un sistema llamado CIRCLES (que suena a "círculos", pero en realidad significa algo como "Selección de Ejemplos para el Aprendizaje Causal"). Funciona así:

Pregunta al modelo: "¿Qué es importante en esta foto para responder la pregunta?". El modelo dice: "El color del pico".
Crea un "Qué pasaría si": El sistema le pide al modelo: "Dime cómo se vería la foto si el pico fuera rojo en lugar de amarillo".
Busca en la memoria: El sistema busca en su base de datos fotos que se parezcan a la original, pero que tengan el pico rojo (como si hubiera cambiado mágicamente).
Enseña con contraste: Le muestra al modelo la foto original (pico amarillo) y la foto "alterada" (pico rojo) junto con sus respuestas correctas.

¿Por qué es tan bueno esto?

Rompe los malos hábitos: Ayuda al modelo a dejar de adivinar basándose en "coincidencias" (como pensar que todos los pájaros grises son gorriones) y empezar a entender las reglas reales.
Funciona incluso con poca información: Si tienes muy pocas fotos para enseñarle (como en situaciones de emergencia o datos escasos), CIRCLES es mucho más eficiente. En lugar de necesitar 100 fotos iguales, necesita pocas fotos que muestren cambios importantes.
Es más robusto: El modelo se vuelve más inteligente y menos propenso a errores cuando ve cosas nuevas o raras.

En resumen

El artículo nos dice que para enseñar a las máquinas a "ver" y "razonar" como humanos, no basta con mostrarles muchas fotos parecidas. Necesitamos enseñarles a pensar: "¿Qué pasaría si cambiara esto?".

CIRCLES es como un profesor muy paciente que no solo muestra ejemplos, sino que hace experimentos mentales ("¿Qué pasa si cambiamos el color?") para que el estudiante entienda la verdadera razón detrás de las cosas, en lugar de solo memorizar patrones superficiales. ¡Y lo hace sin necesidad de reentrenar al modelo, solo eligiendo mejor los ejemplos que le muestra!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: CIRCLES

1. El Problema

Los Modelos Visuales-Lingüísticos (VLMs) han logrado avances significativos en tareas de razonamiento multimodal. Sin embargo, enfrentan dificultades críticas en dos áreas:

Desenredar atributos visuales finos: A menudo luchan para distinguir atributos específicos (ej. color del pecho, patrón de las alas) en lugar de depender de correlaciones superficiales.
Razonamiento causal: Tienden a aprender asociaciones espurias (correlaciones no causales) en lugar de entender las relaciones causales subyacentes entre los atributos visuales y la respuesta.

En el Aprendizaje en Contexto (ICL), donde los modelos se adaptan a nuevas tareas mediante ejemplos de demostración, la selección de estos ejemplos es crucial. Los métodos actuales (como RICES) se basan en la similitud pasiva (vecinos más cercanos en el espacio de incrustaciones). Esto lleva a seleccionar ejemplos que comparten atributos irrelevantes o confusos, reforzando sesgos y limitando la robustez del modelo, especialmente en escenarios de escasez de información o cambios de distribución.

2. Metodología: El Framework CIRCLES

Los autores proponen CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), un marco nuevo que enriquece los conjuntos de demostración incorporando ejemplos contrafactuales mediante recuperación de imágenes compuestas (CIR).

El proceso se divide en tres componentes principales:

A. Comprensión Causal mediante CIR Guiada por Atributos:
- Identificación de Atributos Clave: Dada una imagen de consulta ( $I_q$ ) y una pregunta ( $Q_q$ ), un VLM extrae los pares atributo-valor decisivos para la respuesta (ej. "color del pecho: gris").
- Generación de Contrafactuales: Para aislar la influencia de cada atributo, el sistema genera "intervenciones" atómicas. Se pide al VLM que cree una descripción (caption) contrafactual de la imagen original modificando un solo atributo (ej. cambiar "gris" a "negro") manteniendo el resto constante.
- Recuperación Híbrida: Se recuperan imágenes del conjunto de entrenamiento que coincidan visualmente con esta descripción contrafactual. La puntuación de recuperación combina:
  1. Similitud imagen-texto (fidelidad visual al contrafactual).
  2. Similitud pregunta-pregunta (para asegurar que el contexto semántico de la tarea se mantenga).
- Esto genera un conjunto de ejemplos ( $R_{causal}$ ) que muestran cómo cambia la respuesta al variar un atributo específico.
B. Comprensión Correlacional mediante Recuperación Estándar:
- Se realiza una recuperación tradicional basada en similitud de imagen-imagen (vecinos más cercanos) para proporcionar contexto general y patrones visuales comunes ( $R_{corr}$ ).
C. Inferencia Aumentada por Recuperación:
- El contexto final para el VLM se construye uniendo ambos conjuntos: $R = R_{causal} \cup R_{corr}$ .
- Al exponer al modelo a ejemplos que varían causalmente (contrafactuales) junto con ejemplos similares, el modelo aprende a razonar sobre qué atributos son realmente decisivos, superando las correlaciones superficiales.

3. Contribuciones Clave

Propuesta de CIRCLES: Un nuevo marco de ICL que va más allá de la recuperación basada en similitud, integrando explícitamente el razonamiento contrafactual en la selección de ejemplos.
Mecanismo de Intervención: Utiliza la recuperación de imágenes compuestas (CIR) no como tarea final, sino como una herramienta para construir demostraciones que exponen variaciones de atributos desenredadas.
Evaluación Exhaustiva: Validación en cuatro conjuntos de datos diversos (clasificación de imágenes finas como CUB y Flowers, y VQA abierto como OK-VQA y VizWiz) con múltiples arquitecturas de VLM (Gemma3, Qwen2.5-VL).
Análisis de Escasez de Información: Demostración de que el método es particularmente efectivo cuando los datos relevantes son limitados, un escenario donde los métodos tradicionales fallan.

4. Resultados Experimentales

Rendimiento Superior: CIRCLES supera consistentemente a los métodos de línea base (RICES, MUIER, MMICES) y a la selección aleatoria en todas las arquitecturas y datasets probados.
- En tareas de clasificación fina (CUB, Flowers), las mejoras son notables, especialmente en modelos de escala pequeña (ej. Gemma3-4B), donde el conocimiento interno es limitado.
- En VQA, logra mejoras consistentes en métricas EM (Exact Match) y F1.
Robustez ante Escasez de Datos: En experimentos donde se eliminó hasta el 75% de los datos de entrenamiento, CIRCLES mantuvo una ventaja significativa sobre RICES. La brecha de rendimiento se amplió a medida que la información relevante disminuía, demostrando que los ejemplos contrafactuales proporcionan señales de razonamiento más eficientes.
Análisis Cualitativo: Las visualizaciones muestran que, mientras RICES recupera imágenes visualmente similares pero con atributos confusos (llevando a predicciones incorrectas), CIRCLES recupera ejemplos que ilustran claramente cómo un cambio en un atributo específico altera la etiqueta de la clase, guiando al modelo hacia la respuesta correcta.
Eficiencia: Aunque CIRCLES introduce llamadas adicionales al VLM para extraer atributos y generar descripciones contrafactuales, el sobrecoste de tokens es modesto (~10%) en comparación con la ganancia sustancial en precisión.

5. Significado e Impacto

El trabajo de CIRCLES representa un cambio de paradigma en el Aprendizaje en Contexto Visual. En lugar de tratar los ejemplos de demostración como meros vecinos estadísticos, propone un enfoque causal y estructurado.

Interpretabilidad: Permite entender qué atributos están impulsando la decisión del modelo, fomentando un razonamiento más robusto y menos propenso a sesgos de datos.
Generalización: Al aprender a disentir atributos a través de intervenciones controladas, los modelos se vuelven más capaces de generalizar a consultas fuera de distribución (OOD).
Viabilidad: Demuestra que es posible mejorar el razonamiento de VLMs sin reentrenar los modelos, utilizando únicamente estrategias inteligentes de recuperación y construcción de contexto en tiempo de inferencia.

En resumen, CIRCLES establece que la diversidad causal en los ejemplos de demostración es tan importante como la similitud visual, ofreciendo una vía práctica para mejorar la fiabilidad y el razonamiento profundo de los modelos visuales-lingüísticos.

Retrieving Counterfactuals Improves Visual In-Context Learning

La Analogía: El Detective y el "Qué pasaría si..."

¿Cómo funciona CIRCLES en la vida real?

¿Por qué es tan bueno esto?

En resumen

Resumen Técnico: CIRCLES

1. El Problema

2. Metodología: El Framework CIRCLES

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context