Retrieving Counterfactuals Improves Visual In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

🎨 Il Problema: L'AI che impara "a memoria" invece di "capire"

Immagina di voler insegnare a un bambino a riconoscere un frutto.
Se gli mostri solo foto di mele rosse e gli dici "questo è un frutto", il bambino potrebbe imparare male. Potrebbe pensare che "frutto" significhi semplicemente "qualcosa di rosso e rotondo".
Se poi gli mostri una pera gialla, potrebbe dire: "Non è un frutto, perché non è rosso!".

Questo è esattamente il problema che hanno i modelli di Intelligenza Artificiale (chiamati VLM, o Modelli Linguistici Visivi) quando devono imparare nuovi compiti guardando degli esempi.
Attualmente, quando l'AI deve rispondere a una domanda su un'immagine, cerca nel suo "archivio" le immagini che sembrano più simili a quella che sta guardando.

Il problema: Spesso queste immagini simili hanno caratteristiche ingannevoli. Se l'AI vede un uccello con la pancia bianca, cerca altri uccelli con la pancia bianca. Ma potrebbe imparare che "pancia bianca = specie X", mentre in realtà la differenza chiave potrebbe essere la forma del becco. L'AI impara le correlazioni superficiali (questo va con quello) invece delle relazioni causali (questo causa quello).

💡 La Soluzione: CIRCLES (Il Detective dell'AI)

Gli autori del paper hanno creato un nuovo metodo chiamato CIRCLES. Immagina CIRCLES non come un semplice archivista, ma come un detective scettico o un insegnante molto attento.

Invece di cercare solo immagini "simili", CIRCLES fa una cosa geniale: crea degli "esperimenti mentali".

Ecco come funziona, passo dopo passo, con un'analogia:

1. L'Approccio Vecchio (RICES)

L'AI guarda la tua foto di un gufo e dice: "Cerco nel mio archivio altri gufi che sembrano esattamente questo".

Risultato: Trova altri gufi, ma magari tutti hanno lo stesso sfondo o la stessa luce. L'AI impara che "sfondo scuro = gufo". È un apprendimento fragile.

2. L'Approccio CIRCLES (Il Detective)

CIRCLES dice: "Aspetta, non basta guardare le copie. Dobbiamo capire cosa rende quel gufo un gufo".
Quindi, CIRCLES fa questo:

Identifica l'attributo chiave: "Ok, questo gufo ha le piume marroni".
Crea un "Controfattuale" (Un "E se...?"): Chiede all'AI: "E se questo gufo avesse le piume bianche? Come cambierebbe la risposta?".
Cerca l'esempio "E se...": Cerca nel database immagini che sono quasi uguali alla tua, ma con le piume bianche.
- Se trova un uccello con piume bianche che è un diverso tipo di uccello, allora l'AI capisce: "Ah! Le piume marroni sono la chiave per essere un gufo, non lo sfondo!".

🧩 L'Analogia della Ricetta di Cucina

Immagina che l'AI stia imparando a cucinare una torta al cioccolato.

Metodo Vecchio (Solo Similarità): L'AI guarda 10 foto di torte al cioccolato. Tutte hanno la stessa forma quadrata e la stessa glassa. L'AI pensa: "La torta al cioccolato deve essere quadrata e avere quella glassa". Se le dai una torta rotonda, non la riconosce.
Metodo CIRCLES (Controfattuale):
- L'AI guarda la tua torta.
- Poi pensa: "E se togliessimo il cioccolato? Cosa succede?". Cerca una foto di una torta simile ma senza cioccolato (magari una torta vaniglia).
- Confronta le due: "La torta senza cioccolato non è più una torta al cioccolato. Quindi il cioccolato è la parte importante, non la forma quadrata!".
- Poi pensa: "E se cambiassi la glassa?". Cerca una torta con glassa diversa.
- Risultato: L'AI impara che il sapore (il cioccolato) è la causa, non l'aspetto esteriore.

🚀 Perché è così importante?

Funziona anche con pochi dati: Se hai pochissime foto da mostrare all'AI (scarsità di informazioni), il metodo vecchio fallisce perché non ha abbastanza esempi simili. CIRCLES, invece, "inventa" scenari diversi (controfattuali) per insegnare all'AI le regole di base, anche con pochi esempi reali.
È più robusto: L'AI non viene ingannata da trucchi visivi. Se un'immagine ha un oggetto strano sullo sfondo, CIRCLES aiuta l'AI a ignorarlo e concentrarsi sull'oggetto vero.
Migliora i modelli piccoli: Funziona benissimo anche con modelli di intelligenza artificiale "piccoli" (che hanno meno memoria interna), dandogli una spinta enorme per capire meglio il mondo.

🏁 In Sintesi

Il paper ci dice che per insegnare bene a un'AI a vedere e ragionare, non basta mostrarle copie di ciò che vuole riconoscere. Dobbiamo mostrarle anche variazioni controllate: "E se cambiassi questo dettaglio?".

CIRCLES è lo strumento che fa questo: prende un'immagine, la modifica mentalmente (cambiando un colore, una forma, un dettaglio) e cerca esempi reali che corrispondano a questa modifica. In questo modo, l'AI impara a distinguere ciò che è essenziale da ciò che è solo casuale, diventando molto più intelligente e affidabile.

È come passare dall'insegnare a un bambino a riconoscere un cane mostrandogli solo foto di cani del vicinato, a portarlo al parco e chiedergli: "Se togli le orecchie, è ancora un cane? Se cambia il colore, è ancora un cane?". Così impara davvero cos'è un cane.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli Vision-Language (VLM) hanno ottenuto risultati straordinari in compiti di ragionamento multimodale, ma spesso faticano a:

Distinguere attributi visivi fini: Hanno difficoltà a separare le caratteristiche specifiche di un'immagine (es. il colore del petto di un uccello) dal contesto generale.
Ragionare sulle relazioni causali: Tendono a imparare correlazioni spurie (es. associare un'etichetta a un oggetto che appare spesso insieme, ma non è la causa della risposta) invece di comprendere la struttura causale sottostante.

Nell'Apprendimento Contestuale (In-Context Learning - ICL), la selezione degli esempi di dimostrazione è cruciale. I metodi attuali (come RICES) si basano su una retrieval passiva basata sulla similarità. Questo approccio seleziona esempi visivamente simili, che spesso condividono attributi irrilevanti o confondenti, rafforzando le associazioni spurie e limitando la robustezza del modello, specialmente in scenari con scarsità di informazioni o distribuzioni di dati diverse.

2. Metodologia: Il Framework CIRCLES

Gli autori introducono CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), un nuovo framework che arricchisce gli insiemi di dimostrazione recuperando esempi di tipo controfattuale.

Il processo si articola in tre fasi principali:

A. Identificazione degli Attributi Chiave

Per una data immagine di query ( $I_q$ ) e domanda ( $Q_q$ ), il VLM viene interrogato per estrarre gli attributi visivi decisivi per la risposta (es. "colore del petto", "forma del becco").

B. Recupero di Esempi Controfattuali (Causal Understanding)

Invece di cercare solo immagini simili, CIRCLES utilizza la Composed Image Retrieval (CIR) per generare esempi che isolano l'effetto di singoli attributi:

Generazione di didascalie controfattuali: Per ogni attributo chiave $a_i$ con valore $v_i$ , il sistema chiede al VLM di generare una didascalia che descriva l'immagine con un valore alternativo $v'_i$ (es. "cambia il colore del petto in grigio"), mantenendo invariati tutti gli altri attributi.
Recupero mirato: Utilizzando queste didascalie modificate, il sistema recupera immagini dal dataset di addestramento che corrispondono visivamente alla nuova descrizione controfattuale.
Filtraggio Semantico: Per evitare di recuperare immagini semanticamente irrilevanti, viene calcolato un punteggio combinato che include:
- Similarità immagine-didascalia (fedeltà visiva al controfattuale).
- Similarità domanda-domanda (per garantire che il contesto della domanda rimanga coerente).

C. Recupero Correlazionale (Standard Understanding)

Parallelamente, viene eseguito un recupero standard basato sulla similarità immagine-immagine (come in RICES) per fornire al modello esempi prototipici e contestuali generali.

D. Inferenza Aumentata

Il contesto finale per l'inferenza del VLM è l'unione degli esempi recuperati tramite similarità standard ( $R_{corr}$ ) e quelli recuperati tramite CIR ( $R_{causal}$ ). Questo mix permette al modello di confrontare casi simili ma con variazioni controllate di attributi, facilitando un ragionamento causale implicito.

3. Contributi Chiave

Framework CIRCLES: Una metodologia innovativa che integra esplicitamente segnali di ragionamento controfattuale nella selezione degli esempi per l'ICL visivo.
Superamento della Similarità Pura: Dimostrazione che la semplice similarità visiva è insufficiente per compiti che richiedono la distinzione di attributi fini; l'aggiunta di esempi controfattuali "disentangla" le cause della risposta corretta.
Analisi Qualitativa e Quantitativa: Fornisce evidenze che gli esempi recuperati da CIRCLES sono più diversificati e informativi causalmente, guidando il modello verso attributi discriminativi reali.

4. Risultati Sperimentali

Il framework è stato valutato su quattro dataset diversificati: CUB e Flowers (classificazione di immagini a grana fine), OK-VQA e VizWiz (VQA aperto e realistico). I test sono stati condotti su diversi architetture VLM (Gemma3 4B/12B, Qwen2.5-VL 3B/7B).

Prestazioni Superiori: CIRCLES supera costantemente i metodi basati su retrieval (RICES, MUIER, MMICES) e il baselines zero-shot/random. I miglioramenti sono particolarmente evidenti nei modelli più piccoli (es. Gemma3-4B), dove la conoscenza interna è limitata.
Robustezza alla Scarsità di Dati: In scenari di "information scarcity" (rimozione progressiva dei dati di addestramento), CIRCLES mantiene prestazioni superiori rispetto ai metodi basati su similarità. Il divario di performance si amplia man mano che i dati disponibili diminuiscono, dimostrando che gli esempi controfattuali forniscono un segnale di apprendimento più efficiente.
Analisi Qualitativa: Le visualizzazioni mostrano che mentre RICES recupera esempi globalmente simili ma fuorvianti (es. uccelli della stessa famiglia ma con attributi diversi), CIRCLES recupera esempi che mostrano esplicitamente come la variazione di un attributo cambi l'etichetta corretta.
Efficienza: Nonostante l'overhead computazionale aggiuntivo per la generazione delle didascalie controfattuali, il costo in termini di token è modesto (~10% in più rispetto a RICES) e i guadagni in accuratezza giustificano ampiamente l'investimento.

5. Significato e Implicazioni

Questo lavoro segna un passo importante verso VLM più robusti e interpretabili.

Dal Correlativo al Causale: CIRCLES sposta il paradigma dell'ICL visivo dalla semplice memorizzazione di pattern correlativi verso un ragionamento che comprende le relazioni causa-effetto tra attributi visivi e risposte.
Accessibilità: Essendo un metodo "training-free" (non richiede il ri-addestramento del modello VLM), è facilmente applicabile a modelli esistenti per migliorarne le capacità di ragionamento.
Futuro della Ricerca: Dimostra che l'integrazione di tecniche di retrieval avanzate (come la CIR) con l'ICL può mitigare i bias dei dataset e migliorare la generalizzazione, specialmente in domini dove la precisione degli attributi è critica (es. diagnostica medica, identificazione di specie).

In sintesi, CIRCLES dimostra che fornire ai modelli esempi che mostrano "cosa succederebbe se" (controfattuali), e non solo "cosa è simile", è fondamentale per un apprendimento contestuale visivo efficace e affidabile.