Retrieving Counterfactuals Improves Visual In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe CIRCLES een slimme visuele detective maakt

Stel je voor dat je een zeer slimme, maar soms een beetje oppervlakkige kunstenaar hebt die elke afbeelding kan bekijken en erover kan praten. Dit is een Vision-Language Model (een VLM). Hij kan prachtige dingen doen, zoals beschrijven wat hij ziet of vragen beantwoorden over foto's. Maar er is een probleem: hij is soms te snel met conclusies trekken op basis van oppervlakkige overeenkomsten.

Het Probleem: De "Valse Vrienden"
Stel je voor dat je deze kunstenaar vraagt: "Wat voor vogel is dit?" en je wijst naar een vogel met een grijze borst.
De kunstenaar kijkt naar zijn geheugen (de voorbeelden die hij ziet) en zegt: "Ah, ik heb veel vogels gezien met een grijze borst, en die waren allemaal 'Pine Warblers'. Dus dit moet ook een Pine Warbler zijn!"

Het probleem is dat hij misschien niet ziet dat de echte reden voor het antwoord de vorm van de snavel is, en dat de grijze borst slechts een toevallige overeenkomst is. Hij leert de "valse vrienden" (de grijze borst) in plaats van de "echte oorzaak" (de snavel). Dit heet in de vakjargon spurious correlations (schijnverbanden). Als je hem dan een vogel laat zien die op een Pine Warbler lijkt, maar een andere snavel heeft, raakt hij in de war.

De Oplossing: CIRCLES
De onderzoekers van deze paper hebben een nieuwe manier bedacht om deze kunstenaar slimmer te maken. Ze noemen het CIRCLES.

In plaats van alleen te kijken naar wat er op de foto lijkt (zoals een standaard zoekmachine die "de meest vergelijkbare foto's" vindt), doet CIRCLES alsof het een detective is die "tegenwereldjes" bedenkt.

Hoe werkt CIRCLES? De Analogie van de Kledingwinkel
Stel je voor dat je een kledingstuk wilt kopen en je vraagt aan een assistent: "Wat is het verschil tussen deze rode jas en die blauwe?"

De oude manier (Standaard Zoeken): De assistent haalt 10 andere rode jassen uit de kast. Je ziet alleen rode jassen. Je leert niet echt wat het verschil maakt, want je ziet alleen meer van hetzelfde. Je denkt misschien: "Ah, rode jassen zijn altijd warm." (Terwijl de kleur niets te maken heeft met de warmte).
De CIRCLES-methode (Counterfactuals): De assistent denkt na: "Laten we eens kijken wat er gebeurt als we de kleur veranderen."
- Hij pakt de rode jas en zegt: "Stel, deze jas was blauw... dan zou hij er nog steeds warm uitzien, maar dan is de kleur het enige verschil."
- Hij pakt de blauwe jas en zegt: "Stel, deze was rood... dan is hij nog steeds warm."

Door deze "wat-zou-er-gebeuren" voorbeelden (in het Engels: counterfactuals) te tonen, ziet de kunstenaar duidelijk: "Oh! De kleur maakt niet uit voor de warmte. Het is de dikte van de stof die telt!"

De Techniek in Eenvoudige Taal
CIRCLES doet precies dit met afbeeldingen:

Identificeer het belangrijke: Het systeem vraagt de AI: "Welk detail op deze foto is het belangrijkst voor het antwoord?" (Bijvoorbeeld: "De vlek op de kop").
Maak een "Tegenwereldje": Het systeem zegt tegen de AI: "Beschrijf deze foto, maar verander die ene vlek op de kop naar een andere kleur."
Zoek de Tegenwereldjes: Nu zoekt het systeem in de database naar foto's die eruitzien als die gewijzigde beschrijving.
- Voorbeeld: Als de originele vogel een zwarte vlek heeft, zoekt CIRCLES naar vogels die er bijna hetzelfde uitzien, maar dan zonder die zwarte vlek.
Leren door Contrast: De kunstenaar krijgt nu twee soorten voorbeelden:
- Vrienden: Foto's die er heel veel op lijken (de standaard zoekresultaten).
- Tegenwereldjes: Foto's die er bijna op lijken, maar waar één belangrijk ding anders is.

Door deze twee naast elkaar te zien, begrijpt de kunstenaar: "Als ik de vlek verander, verandert het antwoord. Dus de vlek is de sleutel!"

Waarom is dit zo goed?

Beter in moeilijke situaties: Als er weinig voorbeelden zijn (bijvoorbeeld zeldzame vogels), werkt de oude manier slecht omdat er geen "vrienden" zijn om naar te kijken. CIRCLES maakt zijn eigen voorbeelden door details te veranderen, waardoor hij ook met weinig data slim blijft.
Minder fouten: Het voorkomt dat de AI leert op basis van toeval (zoals "alle vogels met een grijze borst zijn X"). Het leert op basis van de echte oorzaak.
Werkt voor iedereen: Het werkt zelfs goed op kleinere, minder krachtige computers (modellen), wat betekent dat je dit op meer plekken kunt gebruiken.

Conclusie
CIRCLES is als een goede leraar die niet alleen zegt: "Kijk, dit is een appel." Maar die ook vraagt: "Wat zou er gebeuren als we de steel eraf halen? Is het nog steeds een appel? Wat als we de kleur veranderen?"

Door deze diepere, causale vragen te stellen via voorbeelden, wordt de kunstenaar (de AI) veel robuuster, slimmer en betrouwbaarder in het begrijpen van de wereld om ons heen. Het is een stap van "oppervlakkig kijken" naar "echt begrijpen".

Each language version is independently generated for its own context, not a direct translation.

Titel: Het ophalen van contrafacten verbetert visueel In-Context Learning

Auteurs: Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang (University of Virginia)

1. Het Probleem

Visueel-taalmodellen (VLMs) hebben indrukwekkende prestaties geleverd in multimodale redeneertaken, maar ze worstelen vaak met het ontrafelen van fijnmazige visuele attributen en het redeneren over onderliggende causale relaties.

Afhankelijkheid van voorbeelden: In-Context Learning (ICL) stelt VLMs in staat om zich snel aan te passen aan nieuwe taken door gebruik te maken van demonstratievoorbeelden. De effectiviteit hiervan hangt echter sterk af van de selectie van deze voorbeelden.
Beperkingen van bestaande methoden: Huidige retrieval-augmented benaderingen (zoals RICES) vertrouwen op passieve, op gelijkenis gebaseerde zoekopdrachten (nearest neighbors). Dit leidt vaak tot het selecteren van voorbeelden die sterk gecorreleerd zijn maar niet causaal relevant.
Schijnbare correlaties: Modellen leren hierdoor oppervlakkige correlaties na te bootsen in plaats van de attributen te identificeren die de uit werkelijkheid bepalen. Dit resulteert in fragiele modellen die slecht presteren bij veranderingen in verdeling of schaarste aan informatie.

2. Methodologie: CIRCLES

De auteurs introduceren CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), een nieuw framework dat actief demonstratieverzamelingen construeert door contrafactuele voorbeelden op te halen.

Het framework bestaat uit drie hoofdstappen:

A. Causaal Begrip via Attributengeleide Samengestelde Beeldretrieval (CIR)

In plaats van alleen op visuele gelijkenis te zoeken, identificeert CIRCLES semantisch betekenisvolle attributen en haalt contrafactuele voorbeelden op.

Identificatie van sleutelattributen: Gegeven een query-afbeelding ( $I_q$ ) en een vraag ( $Q_q$ ), gebruikt het VLM om cruciale attributen te extraheren (bijv. "borstkleur").
Generatie van contrafactuele captions: Voor elk attribuut genereert het VLM een beschrijving van de afbeelding met één attribuut veranderd (bijv. "verander de borstkleur naar grijs"), terwijl de rest gelijk blijft. Dit simuleert een causale interventie ( $do(a_i = v'_i)$ ).
Retrieval: De system zoekt in de dataset naar afbeeldingen die visueel overeenkomen met deze gegenereerde contrafactuele beschrijvingen.
Scoring: De score voor een kandidaat is een combinatie van:
- Visuele trouw aan de contrafactuele caption.
- Semantische relevantie ten opzichte van de oorspronkelijke vraag (om te voorkomen dat de context te veel afwijkt).

B. Correlatief Begrip via Standaard Beeldretrieval

Om het causale deel aan te vullen, worden ook de traditionele, op gelijkenis gebaseerde voorbeelden opgehaald (nearest neighbors in de embedding-ruimte). Dit zorgt voor een brede contextuele basis.

C. Retrieval-Augmented In-Context Learning

De uiteindelijke context voor het VLM bestaat uit de vereniging van beide sets:
$R = R_{causal} \cup R_{corr}$
Door het model zowel gecorreleerde als contrafactuele voorbeelden te tonen, wordt het aangemoedigd om te redeneren over welke attributen de uitkomst daadwerkelijk bepalen, in plaats van alleen oppervlakkige patronen te herkennen.

3. Belangrijkste Bijdragen

Nieuw Framework: Introductie van CIRCLES, dat contrafactuele voorbeelden integreert in ICL via attributengeleide samengestelde beeldretrieval (CIR).
Causaal Redeneren: Het framework verschuift de focus van pure visuele gelijkenis naar het isoleren van causale factoren, waardoor modellen robuuster worden tegen schijnbare correlaties.
Uitgebreide Evaluatie: Experimenten op vier diverse datasets (CUB, Flowers, OK-VQA, VizWiz) tonen consistente verbeteringen ten opzichte van bestaande methoden (RICES, MUIER, MMICES).
Analyse van Schaarste: Het paper toont aan dat CIRCLES vooral effectief is in situaties met beperkte data (information scarcity), waar traditionele methoden sterk achteruitgaan.

4. Resultaten

De experimenten omvatten verschillende VLM-architecturen (Gemma3 4B/12B, Qwen2.5-VL 3B/7B):

Algemene Prestaties: CIRCLES overtreft consistent alle baselines op alle datasets. De gemiddelde verbetering in Exact Match (EM) en F1-scores is significant.
Kleine Modellen: De prestatieverbetering is het grootst bij kleinere modellen (bijv. Gemma3-4B), wat aangeeft dat CIRCLES waardevolle contextuele ondersteuning biedt wanneer het interne kennis van het model beperkt is.
Fijnmazige Classificatie: Op datasets zoals CUB (vogels) en Flowers, waar subtiele attributenverschillen cruciaal zijn, boekt CIRCLES de grootste winst.
Robuustheid bij Schaarste: Bij het verwijderen van tot 75% van de trainingsdata (simulatie van data-schaarste) behoudt CIRCLES zijn superioriteit ten opzichte van RICES. De prestatiekloof tussen beide methoden wordt groter naarmate er minder data beschikbaar is.
Kwalitatieve Analyse: Voorbeelden tonen aan dat CIRCLES voorbeelden ophaalt die specifieke attributen variëren (bijv. "zwarte kopmarkeringen" bij vogels), waardoor het model de juiste causale link maakt, terwijl standaard retrieval vaak voorbeelden ophaalt die visueel lijken maar de verkeerde classificatie suggereren.

5. Betekenis en Conclusie

CIRCLES biedt een principieel mechanisme om demonstratieverzamelingen te verrijken met voorbeelden die ontrafelde attributenvariaties blootleggen.

Paradigmaverschuiving: Het paper beweert dat ICL niet alleen moet vertrouwen op "wat eruitziet als de query", maar ook op "wat er gebeurt als we specifieke attributen veranderen".
Toekomstperspectief: De methode is training-vrij (gebruikt bestaande VLMs en CLIP) en kan worden geïmplementeerd zonder extra training van het basismodel.
Impact: De bevindingen suggereren dat contrafactuele retrieval een praktische en effectieve route is om visueel in-Context Learning robuuster en causaal onderbouwd te maken, vooral in real-world scenario's met beperkte data of complexe attributen.

De code is beschikbaar gesteld op GitHub, wat de reproduceerbaarheid en verdere ontwikkeling van causale ICL-methoden bevordert.

Retrieving Counterfactuals Improves Visual In-Context Learning

Titel: Het ophalen van contrafacten verbetert visueel In-Context Learning

1. Het Probleem

2. Methodologie: CIRCLES

A. Causaal Begrip via Attributengeleide Samengestelde Beeldretrieval (CIR)

B. Correlatief Begrip via Standaard Beeldretrieval

C. Retrieval-Augmented In-Context Learning

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context