ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek "ORIC" in eenvoudig Nederlands, met behulp van alledaagse vergelijkingen.

Het Probleem: De "Verkeerde Verwachting"

Stel je voor dat je een zeer slimme robot hebt die foto's kan bekijken en erover kan praten. Deze robot is getraind op miljoenen foto's en weet precies hoe een keuken eruitziet of hoe een voetbalveld eruitziet.

Maar er is een probleem: De robot is te afhankelijk van wat hij verwacht te zien.

Voorbeeld 1: Je laat de robot een foto zien van een kantoor met een computer. Vraag je: "Zie je hier een muis?" (een computermuis). De robot zegt: "Ja!" (Goed gedaan).
Voorbeeld 2: Je laat dezelfde foto zien, maar deze keer staat er een trein op de foto (misschien als een poster of een vreemd object). Vraag je: "Zie je hier een trein?" De robot zegt: "Nee, dat past niet in een kantoor."* (Fout! De trein is er wel, maar de robot negeert het omdat het "onlogisch" is).
Voorbeeld 3: Je laat een foto zien van een honkbalveld. Er ligt geen bal. Vraag je: "Zie je hier een honkbal?" De robot zegt: "Ja, natuurlijk ligt er een bal op een honkbalveld!" (Fout! Hij hallucineert een bal die er niet is, omdat het zo logisch klinkt).

De onderzoekers noemen dit "Contextuele Incongruïteit". Dat is een moeilijke term voor: "Dingen die er zijn waar ze niet horen, of dingen die er niet zijn waar ze wel horen."

De conclusie van het paper is schokkend: Zelfs de slimste AI-modellen van vandaag (zoals GPT-5 of Qwen) maken hier enorme fouten in. Ze vertrouwen meer op hun "algemene kennis" dan op wat ze daadwerkelijk op de foto zien.

De Oplossing: De "ORIC" Test

Om dit probleem op te lossen, hebben de onderzoekers een nieuwe test ontwikkeld genaamd ORIC (Object Recognition in Incongruous Context).

Stel je voor dat je een leerling wilt testen op zijn waarnemingsvermogen. Normaal gesproken geef je hem een foto van een hond in een park en vraag je: "Is dat een hond?" Dat is te makkelijk.

Met ORIC doen ze het anders:

De "Moeilijke Ja"-vraag: Ze zoeken foto's waar een object echt staat, maar waar het totaal niet thuishoort. Bijvoorbeeld: Een ijsje in een zwembad. Ze vragen de AI: "Zie je hier een ijsje?" Als de AI "nee" zegt omdat het een zwembad is, faalt hij.
De "Moeilijke Nee"-vraag: Ze zoeken foto's waar een object niet staat, maar waar het wel heel logisch zou zijn. Bijvoorbeeld: Een pizza op een strand. Ze vragen: "Zie je hier een pizza?" Als de AI "ja" zegt omdat hij pizza's op stranden verwacht, faalt hij.

Om deze test te maken, gebruikten ze twee slimme trucjes:

De "Slimme Gokker" (LLM): Een AI die zegt: "Hé, in deze foto met een auto en een boom, zou er een bananenstok kunnen staan? Nee, dat is raar." Dan kiezen ze die bananenstok als testvraag.
De "Zoeker" (CLIP): Een ander systeem dat zoekt naar objecten die er niet zijn, maar die er wel heel goed uitzien in de omgeving.

Wat hebben ze ontdekt?

Toen ze 18 verschillende AI-modellen op deze test lieten, zagen ze dat bijna allemaal zwaar faalden.

Ze waren goed in simpele dingen (een hond in een park).
Ze waren slecht in dingen die "raar" leken (een trein in een kantoor).

Het bleek dat de AI's vaak hallucineren. Ze zien dingen die logisch klinken, maar niet bestaan. Of ze missen dingen die er wel zijn, omdat ze denken: "Dat hoort hier niet."

De Remedie: "Visual Reinforcement Fine-Tuning"

Hoe maak je de AI slimmer? Je kunt hem niet gewoon meer foto's geven. Je moet hem leren om te twijfelen.

De onderzoekers gebruikten een methode genaamd Visual-RFT.

Vergelijking: Stel je voor dat je een kind leert fietsen. Als het kind op een fiets zit die niet past, val je. In plaats van het kind te straffen, geef je een beloning als het zegt: "Ik val, want de fiets is te groot."
In de AI: Ze trainden een model (Qwen3-VL) op deze "raar" foto's. Ze gaven de AI een beloning als het eerlijk zei: "Ik zie geen pizza, ook al denk ik dat er een zou moeten zijn."
Resultaat: Na deze training werd de AI veel betrouwbaarder. Hij begon minder te hallucineren en keek beter naar wat er echt op de foto stond, in plaats van wat hij verwachtte.

Samenvatting in één zin

Dit paper laat zien dat onze slimste AI's vaak "blind" zijn voor dingen die niet in hun verwachtingen passen, en dat we ze moeten trainen om te kijken naar de realiteit in plaats van naar hun eigen fantasieën.

De kernboodschap: Een slimme AI moet niet alleen weten wat er logisch is, maar ook durven te zeggen wat er echt is, zelfs als het raar lijkt.

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Het Probleem: De "Verkeerde Verwachting"

De Oplossing: De "ORIC" Test

Wat hebben ze ontdekt?

De Remedie: "Visual Reinforcement Fine-Tuning"

Samenvatting in één zin

1. Het Probleem: Contextuele Incongruïteit en Onzekerheid

2. Methodologie: Het ORIC Framework

3. Belangrijkste Resultaten

4. Oplossing: Visual Reinforcement Fine-Tuning (Visual-RFT)

5. Betekenis en Bijdragen

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Het Probleem: De "Verkeerde Verwachting"

De Oplossing: De "ORIC" Test

Wat hebben ze ontdekt?

De Remedie: "Visual Reinforcement Fine-Tuning"

Samenvatting in één zin

1. Het Probleem: Contextuele Incongruïteit en Onzekerheid

2. Methodologie: Het ORIC Framework

3. Belangrijkste Resultaten

4. Oplossing: Visual Reinforcement Fine-Tuning (Visual-RFT)

5. Betekenis en Bijdragen

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers