Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Deze paper introduceert Ref-Adv, een nieuw benchmark voor het begrijpen van verwijzende uitdrukkingen dat kortere zinnen en afleidende factoren elimineert om de beperkingen van multimodale LLM's in visueel redeneren en gronding bloot te leggen, aangezien deze modellen ondanks sterke prestaties op bestaande benchmarks aanzienlijk falen op deze uitdagendere taak.

Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een vriend vraagt: "Wijs me die rode auto." In een eenvoudige foto met maar één rode auto is dit makkelijk. Maar wat als er tien rode auto's zijn, en je vriend moet de enige rode auto vinden die een kras op de linkerdeur heeft, terwijl de andere negen perfect zijn?

Dat is precies wat dit nieuwe onderzoek, genaamd Ref-Adv, doet. Het is een nieuwe test voor slimme computerprogramma's (die we "Multimodale LLM's" noemen, of kortweg AI's die kunnen zien en lezen).

Hier is het verhaal in simpele taal:

1. Het Probleem: De "Snelweg" voor AI

De oude tests (zoals RefCOCO) waren als een snelweg zonder verkeerslichten.

  • Te makkelijk: De zinnen waren vaak heel kort, zoals "de hond".
  • Te weinig concurrentie: Er waren vaak maar één of twee andere honden in de foto.
  • De valstrik: Omdat de foto's zo simpel waren, hoefde de AI niet echt na te denken. Ze konden een "kortsluiting" gebruiken. Ze hoefden niet de hele zin te lezen; ze konden gewoon kijken naar het woord "hond" en de enige hond in beeld aanwijzen. Het was alsof je een raadsel oplost door te gokken, in plaats van te redeneren.

De AI's deden het hier fantastisch op: ze haalden bijna 100% score. Maar dat was een leugen. Ze waren niet echt slim in het begrijpen van complexe situaties; ze waren gewoon goed in het herkennen van simpele patronen.

2. De Oplossing: Ref-Adv (De "Gymzaal" voor AI)

De onderzoekers hebben een nieuwe test gebouwd, Ref-Adv. Dit is geen snelweg meer, maar een moderne gymzaal met zware gewichten.

Hoe maken ze dit?

  • De "Stoornis" (Distractors): Ze kiezen foto's waar er vele objecten van hetzelfde type zijn. Bijvoorbeeld: een foto met 10 mensen. De AI moet de ene vinden die een zonnebril draagt, terwijl de anderen dat niet doen.
  • De "Truc" (Hard Distractors): Dit is het slimste deel. Ze zorgen dat er een "verkeerde" persoon is die bijna klopt. Bijvoorbeeld: de AI moet "de persoon zonder zonnebril" vinden. Er is iemand met een zonnebril, maar er is ook iemand die geen zonnebril draagt, maar wel een hoed (terwijl de opdracht zegt: "niet met een hoed"). De AI moet echt goed kijken en redeneren, niet alleen zoeken naar het woord "zonnebril".
  • Geen "Korte Zinnen": De zinnen zijn langer en complexer, met woorden als "niet", "anders dan", of "die verder weg staat".

3. Het Experiment: De "Waarheidstest"

De onderzoekers lieten de slimste AI's van vandaag (zoals GPT-4o, Gemini, en Qwen) deze nieuwe test doen.

  • Het Resultaat: De AI's, die op de oude tests bijna perfect waren, vielen hier zwaar doorheen. Hun score daalde drastisch.
  • De Les: Het bleek dat de AI's vaak de "verkeerde" persoon aanwezen (de hard distractor). Ze probeerden te kortsluiten, maar de test was zo ontworpen dat die kortsluiting niet werkte. Ze moesten echt begrijpen wat er gezegd werd en dan precies kijken.

4. De "Denk-Mode" (Chain-of-Thought)

De onderzoekers gaven de AI's ook de opdracht om eerst hardop na te denken (een soort "denk-stap" voordat ze antwoorden).

  • Op de oude tests hielp dit niet veel (soms zelfs niet, omdat het te veel gedoe was voor een makkelijk vraagje).
  • Op de nieuwe Ref-Adv-test hielp dit enorm! Het was alsof je een student een wiskundig probleem geeft: als je ze dwingt om de stappen op te schrijven, maken ze minder fouten. De AI's die eerst "dachten" over de zin en de foto, deden het veel beter.

Samenvatting in één zin

Ref-Adv is een nieuwe, eerlijke test die laat zien dat veel AI's die we vandaag als "slim" beschouwen, eigenlijk alleen maar goed zijn in simpele taken; zodra je ze vraagt om echt na te denken en te zoeken in een rommelige wereld, zien we dat ze nog veel moeten leren.

Het is alsof we een auto hebben getest op een lege parkeerplaats (oude test) en denken dat het een Formule 1-auto is, maar Ref-Adv rijdt die auto door een drukke stad met regen en verkeersopstoppingen, en daar blijkt hij toch wat minder snel te zijn dan gedacht.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →