AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Dit paper introduceert AQuA, een gedetailleerd dataset en framework dat Vision-Language Models in staat stelt om ambiguïteit in visuele vragen te herkennen en strategisch te reageren door de juiste respons te kiezen, zoals het vragen om verduidelijking of het geven van alternatieve antwoorden, in plaats van overmoedig te antwoorden.

Jihyoung Jang, Hyounghun Kim

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎨 De Gids voor Verwarrende Vragen: rAQUA

Stel je voor dat je een zeer slimme robot hebt die naar foto's kijkt en vragen kan beantwoorden. Dit noemen we een Visueel Taalmodel (VLM). Tot nu toe waren deze robots getraind op heel duidelijke vragen, zoals: "Wat is de kleur van de auto?" als er maar één auto op de foto staat.

Maar in het echte leven is het leven niet altijd zo duidelijk. Soms vraag je: "Wat is de kleur van deze auto?" terwijl er op de foto drie auto's staan.

Tot nu toe maakten de slimme robots een grote fout: ze gaven gewoon een gokje, alsof ze wisten welke auto je bedoelde. Ze waren te zelfverzekerd. Ze zeiden: "Die is rood!" terwijl ze misschien naar de verkeerde auto keken.

De auteurs van dit paper zeggen: "Stop met gokken. Leer de robot om slim te reageren op verwarring."

🧩 Het Probleem: De Robot die niet durft te vragen

Stel je voor dat je op een drukke markt staat en je vraagt aan een verkoper: "Hoeveel kost dit?"

  • Als er maar één appel ligt, zegt de verkoper: "€1,00."
  • Als er drie appels liggen, zegt een goede verkoper: "Bedoelt u de rode, de groene of de gele?"
  • Een slechte verkoper (zoals de oude AI's) zegt zomaar: "De rode is €1,00!" terwijl jij misschien de groene bedoelde.

De huidige AI's doen precies dat: ze gokken en zijn te zelfverzekerd, zelfs als ze het niet weten.

🌊 De Oplossing: rAQUA (De "Verwarrings-Map")

De onderzoekers hebben een nieuwe dataset gemaakt genaamd rAQUA. Ze hebben dit vergeleken met een verkeersbordensysteem voor robots. In plaats van één soort vraag, hebben ze de vragen ingedeeld in vier niveaus van verwarring, elk met zijn eigen juiste reactie:

  1. Niveau 0: Geen verwarring (Het Duidelijke Pad)

    • Situatie: Er staat maar één auto.
    • Goede reactie: Geef direct het antwoord. "Die auto is blauw."
    • Metafoor: Een groen verkeerslicht. Gewoon doorrijden.
  2. Niveau 1: Lichte verwarring (De Context-Sleutel)

    • Situatie: Er staan twee auto's, maar één staat heel groot in het midden en de andere is klein en ver weg. Je vraagt: "Wat is de kleur van deze auto?"
    • Goede reactie: De robot moet begrijpen dat "deze" duidelijk naar de grote auto verwijst.
    • Metafoor: Je wijst naar de grote boom in de tuin. Iedereen weet welke boom je bedoelt. De robot zegt: "Ah, je bedoelt die grote eik, die is bruin."
  3. Niveau 2: Meerdere opties (De Lijst-Maker)

    • Situatie: Er staan twee auto's die even groot en even belangrijk zijn. Je vraagt: "Wat is de kleur van deze auto?"
    • Goede reactie: De robot mag niet gokken. Hij moet zeggen: "Er zijn twee auto's. De ene is blauw, de andere is rood. Welke bedoel je?" of gewoon beide opties noemen.
    • Metafoor: Je vraagt om de prijs van de "schoenen" in een winkel met twee verschillende paar. De verkoper zegt: "Deze hier zijn €50, en die daar zijn €70."
  4. Niveau 3: Grote verwarring (De Vraag-Maker)

    • Situatie: Er staan tien auto's, allemaal even groot en dicht bij elkaar. Je vraagt: "Wat is de kleur van deze auto?"
    • Goede reactie: De robot moet zeggen: "Ik zie tien auto's. Ik kan niet weten welke je bedoelt. Kun je specifieker zijn?"
    • Metafoor: Je staat in een zaal met honderd mensen en vraagt: "Wie is die persoon?" De enige juiste reactie is: "Welke persoon precies?"

🛠️ Hoe hebben ze de robot getraind?

Ze hebben de robot niet alleen deze regels verteld, maar hem erop getraind om de juiste "strategie" te kiezen. Ze gebruikten twee stappen:

  1. Supervised Fine-Tuning (SFT): Ze leerden de robot de regels uit de hand. "Als je dit ziet, doe dan dit."
  2. GRPO (De Coach): Dit is een slimme methode waarbij de robot oefent en een "coach" (een andere AI) hem belooft als hij de juiste strategie kiest en hem straft als hij weer gaat gokken.
    • Metafoor: Het is alsof je een kind leert fietsen. Eerst houd je het zadel vast (SFT), en daarna laat je het los en geef je een lachje als het kind rechtop blijft (GRPO).

🏆 Wat was het resultaat?

Toen ze de getrainde robot testten, gebeurde er iets wonderlijks:

  • De oude, ongetrainde robots (zelfs de zeer dure, commerciële modellen) bleven gokken en gaven vaak het verkeerde antwoord.
  • De nieuwe, getrainde robot (rAQUA) wist precies wat hij moest doen.
    • Bij duidelijke vragen gaf hij direct antwoord.
    • Bij twijfel vroeg hij om verduidelijking of gaf hij een lijstje.
    • Hij was niet meer zelfverzekerd als hij het niet wist.

🚀 Conclusie

Dit paper laat zien dat slimme AI's niet alleen moeten leren antwoorden, maar ook moeten leren hoe ze moeten antwoorden als de situatie vaag is.

In plaats van een robot die denkt dat hij alles weet (en daardoor vaak fouten maakt), hebben ze een robot gemaakt die sociaal is: hij weet wanneer hij moet antwoorden, wanneer hij moet uitleggen, en wanneer hij moet vragen: "Bedoel je die ene of die andere?"

Dat is de sleutel tot AI die echt bruikbaar is in onze verwarrende, echte wereld.