Large Multimodal Models as General In-Context Classifiers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee soorten slimme robots hebt die foto's moeten herkennen:

De "Vakman" (CLIP/VLM): Deze robot is gespecialiseerd. Hij heeft een enorme lijst met namen (zoals "hond", "kat", "auto") geleerd. Als je hem een foto geeft, kijkt hij snel of de foto lijkt op één van die namen. Hij is heel goed in het kiezen uit een vooraf vastgestelde lijst, maar als je hem vraagt "Wat zie je hier?" zonder lijst, raakt hij in paniek.
De "Alleskunner" (LMM): Dit is een moderne, generatieve robot (zoals een chatbot met ogen). Hij kan praten, redeneren en beschrijven wat hij ziet. Hij is geweldig in complexe taken, maar als je hem gewoon vraagt om een foto te classificeren, is hij soms wat slordig. Hij kan bijvoorbeeld zeggen "een dier" in plaats van "een golden retriever".

Het probleem:
Tot nu toe dachten onderzoekers dat de "Vakman" altijd beter was voor het herkennen van objecten. De "Alleskunner" werd gezien als te onnauwkeurig voor simpele taken.

De ontdekking:
De auteurs van dit papier zeggen: "Wacht even! We hebben de 'Alleskunner' verkeerd aangesproken."

Stel je voor dat je de "Alleskunner" een quiz laat doen.

Situatie A (Zonder voorbeelden): Je zegt: "Wat is dit?" en hij moet raden. Hij doet het slecht.
Situatie B (Met voorbeelden): Je zegt: "Kijk eerst naar deze drie foto's: dit is een hond, dit is een kat, dit is een auto. Nu, wat zie jij op deze nieuwe foto?"

Het blijkt dat de "Alleskunner" ontzettend goed wordt als je hem een paar voorbeelden geeft. Hij leert in dat moment precies wat je bedoelt met "hond" of "auto". Hij kan zelfs de "Vakman" verslaan als hij genoeg voorbeelden krijgt.

De uitdaging: De "Open Wereld"
Maar er is een probleem. In de echte wereld heb je niet altijd een lijst met namen of voorbeelden met de juiste antwoorden. Soms heb je een stapel foto's en weet je niet eens wat erop staat.
Als je de "Alleskunner" dan vraagt om die stapel foto's te labelen, maakt hij vaak fouten. Hij noemt een "gouden retriever" misschien gewoon "een hond" of verward het met een "wolf".

De oplossing: CIRCLE (De "Zelf-corrigerende cirkel")
De auteurs bedachten een slimme truc, genaamd CIRCLE.

Stel je voor dat je een groep vrienden hebt die samen een puzzel moeten oplossen, maar niemand kent de oplossing.

Iedereen maakt een eerste gok over wat ze zien (dit noemen we "pseudo-labels").
In plaats van die gokken te accepteren, laten ze elkaar hun gokken zien.
Ze kijken naar de foto's van hun vrienden en zeggen: "Hé, jij dacht dat dit een 'hond' was, maar kijk eens naar die andere foto's in de groep... dat lijkt meer op een 'wolf'. Misschien moeten we dat aanpassen."
Ze passen hun eigen gokken aan op basis van wat de anderen zeggen.
Ze doen dit een paar keer rondjes (een cirkel).

Door dit iteratieve proces (herhaaldelijk verbeteren) worden de gokken steeds nauwkeuriger. De robot "leert" van zijn eigen fouten en van de context van de andere foto's, zonder dat een mens hoeft in te grijpen.

Het resultaat:
Met deze truc (CIRCLE) wordt de "Alleskunner" (LMM) niet alleen goed in het kiezen uit een lijst, maar zelfs beter dan de gespecialiseerde "Vakman" in het begrijpen van de echte, chaotische wereld.

Samengevat in één zin:
Je kunt een slimme, generatieve AI (zoals een chatbot) laten winnen in het herkennen van objecten door hem niet alleen te laten raden, maar hem een paar voorbeelden te geven en hem te laten "nadenken" over die voorbeelden in een cirkel, waardoor hij zichzelf corrigeert tot hij het perfect begrijpt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De recente opkomst van Vision-Language Models (VLMs) zoals CLIP heeft het landschap van beeldclassificatie getransformeerd, vooral dankzij hun sterke prestaties in "zero-shot" classificatie (het herkennen van objecten zonder specifieke training op die klassen). Echter, er bestaat een wijdverbreid paradigma dat Large Multimodal Models (LMMs), die vaak generatief zijn (tekst genereren op basis van afbeeldingen), inferieur zijn aan contrastieve VLMs voor discriminatieve taken zoals classificatie.

De auteurs stellen dat dit oordeel een cruciaal aspect over het hoofd ziet: het vermogen van LMMs tot In-Context Learning (ICL). Bestaande studies vergelijken LMMs vaak met VLMs zonder rekening te houden met de context die LMMs kunnen benutten. De centrale vraag is: zijn LMMs intrinsiek slechter in classificatie, of worden ze simpelweg niet goed geconditioneerd voor de taak?

Methodologie

Het paper onderzoekt dit probleem in twee scenario's: Closed-World Classification (CWC) en Open-World Classification (OWC).

1. Closed-World Classification (CWC)

In dit scenario is de set van mogelijke klassen vooraf bekend.

Vergelijking: De auteurs vergelijken traditionele contrastieve VLMs (gebruikmakend van Tip-Adapter voor few-shot learning) met generatieve LMMs die gebruikmaken van Vanilla ICL (invoeren van voorbeelden in de contextwindow).
Observatie: Zonder context presteren LMMs vaak slechter dan VLMs. Met een kleine hoeveelheid voorbeelden (few-shot) sluiten LMMs echter snel aan bij VLMs en kunnen ze deze zelfs overtreffen bij voldoende context (bijv. 16 shots).
Conclusie CWC: LMMs tonen een veel hogere "sample efficiency" dan VLMs; ze profiteren aanzienlijk meer van extra contextuele voorbeelden.

2. Open-World Classification (OWC) en de CIRCLE-methode

In open-world scenario's zijn de klassen niet vooraf gedefinieerd; het model moet open vragen beantwoorden (bijv. "Wat is dit object?"). Hierbij zijn er geen gelabelde voorbeelden beschikbaar.

Uitdaging: Eenvoudige ICL met ongelabelde voorbeelden (pseudo-labeling) faalt vaak omdat de modelvoorspellingen inconsistent zijn en de "granulariteit" van de labels (bijv. "bloem" vs. "waterlelie") niet goed wordt vastgehouden.
Oplossing: CIRCLE (CIRCular Iteratively Refines Contextual Learning Examples)
De auteurs stellen een training-vrije methode voor die de context zelf gebruikt om de kwaliteit van de context te verbeteren. Het proces verloopt als volgt:
1. Initiële Pseudo-labeling: Het LMM genereert initiële labels voor een set van $m$ ongelabelde contextafbeeldingen.
2. Iteratieve Refinement: Voor elke afbeelding in de context wordt een nieuw label gegenereerd door de andere $m-1$ afbeeldingen (met hun huidige labels) als context te gebruiken. Dit creëert een "leave-one-out" mechanisme.
3. Circulair Proces: Deze stap wordt herhaald over meerdere iteraties. Hierdoor kan het model zichzelf corrigeren en de semantische samenhang en precisie van de labels binnen de context verbeteren.
4. Classificatie: De verfijnde context wordt gebruikt om de uiteindelijke query-afbeelding te classificeren.

Belangrijkste Bijdragen

Systematische Analyse: De eerste uitgebreide analyse van In-Context Learning in LMMs voor gesloten wereld classificatie, waarbij wordt aangetoond dat LMMs met ICL VLMs kunnen evenaren of overtreffen.
CIRCLE-methode: Een nieuwe, training-vrije aanpak voor open-world classificatie die uitsluitend ongelabelde afbeeldingen gebruikt als context. Door iteratief pseudo-labels te verfijnen, overwint CIRCLE de instabiliteit van standaard ICL.
Benchmarking: Uitgebreide experimenten op tien diverse datasets (van prototypische tot zeer fijnmazige classificatie) tonen aan dat CIRCLE consequent beter presteert dan bestaande VLM-baselines en naive ICL-methoden.

Resultaten

Closed-World: LMMs (zoals Qwen2-VL en Phi-3.5-Vision) tonen bij 16 shots een prestatieverbetering van tot wel +29% ten opzichte van hun zero-shot prestaties, en halen de prestaties van de sterkste CLIP-varianten (ViT-L/14) in.
Open-World:
- Naive ICL (willekeurige context of simpele pseudo-labeling) degradeert vaak de prestaties ten opzichte van zero-shot.
- CIRCLE keert deze trend om. Het verbetert zowel de Llama Inclusion (LI) (correctheid van het antwoord) als de Semantische Similariteit (SS) en Concept Similariteit.
- Bijvoorbeeld: Op prototypische datasets verbetert CIRCLE de LI-score van Qwen2-VL van 78.7 (zero-shot) naar 91.5, terwijl het de semantische kwaliteit behoudt.
- CIRCLE presteert consistent beter dan VLM-baselines zoals CaSED en CLIP-Retrieval, zelfs in uitdagende streaming-scenario's.

Betekenis en Impact

Dit paper daalt het fundamentele veronderstelling dat contrastieve VLMs superieur zijn aan generatieve LMMs voor discriminatieve taken. De auteurs tonen aan dat:

Context cruciaal is: LMMs hebben een enorme potentieel als classificatoren, mits ze correct worden geconditioneerd.
LMMs als universele classifiers: Met de juiste strategie (zoals CIRCLE) kunnen LMMs fungeren als flexibele, universele classifiers die zowel gesloten als open wereld taken aankanen, zonder dat er extra training of menselijke annotatie nodig is.
Toekomstperspectief: In plaats van VLMs als eindoplossing te zien, kunnen ze in de toekomst dienen als "contextbouwers" om LMMs te voeden, waardoor LMMs de nieuwe standaard worden voor diverse visuele taken.

De studie benadrukt dat de beperkingen van LMMs vaak liggen in de implementatie van de context (ruis, inconsistentie) en niet in het model zelf, en dat iteratieve zelf-refinement een krachtige oplossing biedt.

Large Multimodal Models as General In-Context Classifiers

Probleemstelling

Methodologie

1. Closed-World Classification (CWC)

2. Open-World Classification (OWC) en de CIRCLE-methode

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation