Retrieving Counterfactuals Improves Visual In-Context Learning

El artículo presenta CIRCLES, un marco novedoso que mejora el aprendizaje en contexto en modelos visión-lingüísticos mediante la recuperación activa de ejemplos contrafactuales para fomentar un razonamiento causal más robusto y superar las asociaciones espurias de los métodos tradicionales.

Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang

Publicado 2026-03-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero a veces un poco despistado, que es experto en ver imágenes y responder preguntas sobre ellas. A este amigo lo llamaremos el Modelo de Visión.

El problema es que, aunque este amigo es muy listo, a veces comete errores tontos. Por ejemplo, si le muestras una foto de un pájaro con el pecho gris, él podría decir: "¡Es un gorrión!". Pero si le muestras otro pájaro idéntico, pero con el pecho blanco, él podría decir: "¡Es un canario!".

¿Por qué falla? Porque el amigo solo mira parecidos superficiales. Si ve muchos pájaros grises que son gorriones, asume que todo pájaro gris es un gorrión. No entiende la causa real: "El color del pecho es lo que define la especie, no el tamaño de las alas".

Aquí es donde entra la solución del artículo: CIRCLES.

La Analogía: El Detective y el "Qué pasaría si..."

Imagina que quieres enseñarle a tu amigo a identificar pájaros correctamente. Tienes dos formas de hacerlo:

  1. El método antiguo (Búsqueda por Similitud):
    Le muestras 10 fotos de pájaros que se parecen mucho al que tiene delante.

    • Resultado: Si el pájaro de la foto es un "Gorrión de Montaña" y todos los ejemplos que le muestras son también "Gorrios de Montaña" (porque se parecen mucho), tu amigo aprende: "Pájaro gris = Gorrión". Se queda en la superficie. Si luego le muestras un pájaro gris que es un "Canario", se confundirá.
  2. El método CIRCLES (Búsqueda de "Qué pasaría si..."):
    Aquí es donde CIRCLES es genial. En lugar de solo buscar cosas que se parezcan, CIRCLES actúa como un detective de la realidad alternativa.

    • Le dice al modelo: "Mira este pájaro gris. Ahora, imagina un mundo donde solo cambiamos el color de su pecho a blanco, pero todo lo demás sigue igual. ¿Qué pájaro sería ahora?".
    • El sistema busca en su memoria ejemplos donde el pecho es blanco y el resto es igual.
    • Le muestra al modelo: "¡Mira! Cuando el pecho es blanco, ¡es un Canario! Cuando el pecho es gris, ¡es un Gorrión!".

La metáfora del chef:
Imagina que estás aprendiendo a cocinar un guiso.

  • El método antiguo te da 10 recetas que usan exactamente los mismos ingredientes. Te vuelves experto en esa receta, pero si te falta un ingrediente, te rindes.
  • CIRCLES te da la receta original, y luego te dice: "¿Qué pasa si quitamos la sal? ¿Qué pasa si cambiamos el tomate por pimiento?". Al ver cómo cambia el sabor (el resultado) cuando cambias solo una cosa (el ingrediente), aprendes la causa real de por qué el guiso sabe como sabe.

¿Cómo funciona CIRCLES en la vida real?

El artículo propone un sistema llamado CIRCLES (que suena a "círculos", pero en realidad significa algo como "Selección de Ejemplos para el Aprendizaje Causal"). Funciona así:

  1. Pregunta al modelo: "¿Qué es importante en esta foto para responder la pregunta?". El modelo dice: "El color del pico".
  2. Crea un "Qué pasaría si": El sistema le pide al modelo: "Dime cómo se vería la foto si el pico fuera rojo en lugar de amarillo".
  3. Busca en la memoria: El sistema busca en su base de datos fotos que se parezcan a la original, pero que tengan el pico rojo (como si hubiera cambiado mágicamente).
  4. Enseña con contraste: Le muestra al modelo la foto original (pico amarillo) y la foto "alterada" (pico rojo) junto con sus respuestas correctas.

¿Por qué es tan bueno esto?

  • Rompe los malos hábitos: Ayuda al modelo a dejar de adivinar basándose en "coincidencias" (como pensar que todos los pájaros grises son gorriones) y empezar a entender las reglas reales.
  • Funciona incluso con poca información: Si tienes muy pocas fotos para enseñarle (como en situaciones de emergencia o datos escasos), CIRCLES es mucho más eficiente. En lugar de necesitar 100 fotos iguales, necesita pocas fotos que muestren cambios importantes.
  • Es más robusto: El modelo se vuelve más inteligente y menos propenso a errores cuando ve cosas nuevas o raras.

En resumen

El artículo nos dice que para enseñar a las máquinas a "ver" y "razonar" como humanos, no basta con mostrarles muchas fotos parecidas. Necesitamos enseñarles a pensar: "¿Qué pasaría si cambiara esto?".

CIRCLES es como un profesor muy paciente que no solo muestra ejemplos, sino que hace experimentos mentales ("¿Qué pasa si cambiamos el color?") para que el estudiante entienda la verdadera razón detrás de las cosas, en lugar de solo memorizar patrones superficiales. ¡Y lo hace sin necesidad de reentrenar al modelo, solo eligiendo mejor los ejemplos que le muestra!

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →