Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Dit onderzoek toont aan dat de beperkte redeneercapaciteiten van Vision-Language Models het gevolg zijn van een rapportagebias in de trainingsdata die essentiële impliciete informatie uitsluit, en dat schaling van model- of datasetgrootte dit niet oplost zonder gerichte curatie van data met expliciete annotaties.

Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang, Ranjay Krishna

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom slimme beeld-taal-modellen niet kunnen "nadenken" (en waarom meer data niet helpt)

Stel je voor dat je een jonge student wilt leren hoe de wereld werkt. Je geeft hem een bibliotheek vol met miljarden foto's, elk met een korte beschrijving eronder. De bedoeling is dat hij door al die foto's en teksten te lezen, vanzelf alles over de wereld leert: waar dingen staan, hoeveel er zijn, wat er niet is, en wat er voor of na iets gebeurt.

Maar er is een groot probleem. De student leert niet goed te "redeneren". Hij kan een hond herkennen, maar als je vraagt: "Hoeveel honden zijn er?" of "Is de hond links of rechts van de boom?", faalt hij.

Deze paper legt uit waarom dit gebeurt. Het is niet omdat de student niet slim genoeg is, en het is ook niet omdat hij te weinig boeken heeft gelezen. Het probleem zit in hoe mensen foto's beschrijven.

Hier is de uitleg in simpele taal:

1. Het probleem: De "Stille Regels" van Mensen

Mensen zijn heel efficiënt als ze praten of schrijven. We volgen onbewuste regels (in de taalwetenschap "pragmatica" genoemd). We zeggen alleen wat nodig is om de boodschap over te brengen.

  • Voorbeeld: Als je een foto ziet van een hond en een kat, schrijft iemand: "Een hond en een kat."
  • Wat we NIET schrijven: "De hond staat links van de kat." of "Er zijn precies twee dieren." of "Er is geen vogel te zien."

Waarom? Omdat het voor de lezer vanzelfsprekend lijkt of omdat het te veel moeite kost om te tellen. We noemen dit rapportage-bias (een vertekening in wat we rapporteren). We laten "stille informatie" weg die voor ons logisch is, maar die een computer nodig heeft om te leren redeneren.

2. De vier "ontbrekende puzzelstukjes"

De onderzoekers ontdekten dat mensen in hun beschrijvingen systematisch vier soorten informatie weglaten, die essentieel zijn voor logisch denken:

  1. Ruimte: Woorden als "links van", "boven", "onder".
  2. Tijd: Woorden als "voor", "na", "tijdens".
  3. Aantallen: Precieze getallen (in plaats van "een hoopje").
  4. Ontkenningen: Woorden als "niet" (bijv. "geen parrot").

Zelfs in gigantische databases met miljarden foto's (zoals LAION) zijn deze zinnen extreem zeldzaam. Het is alsof je een kookboek hebt met 10.000 recepten, maar in geen enkel recept staat hoe je een ei moet prikken of roeren. Je kunt het ei dan ook niet goed koken, hoe hard je ook probeert.

3. De grote misvatting: "Meer is beter"

Velen denken: "Als we gewoon nog meer data verzamelen en nog grotere modellen bouwen, zullen ze vanzelf leren redeneren."

De onderzoekers zeggen: Nee, dat werkt niet.
Het is alsof je een student 100 keer hetzelfde boek laat lezen waarin de zin "er is geen regen" nooit voorkomt. Als je hem 1.000 keer hetzelfde boek geeft, leert hij het nog steeds niet. De "vertaling" van de menselijke taal is het probleem, niet het aantal boeken.

Zelfs als je de modellen in verschillende talen traint (Duits, Frans, Chinees), gebeurt hetzelfde: mensen in alle talen laten deze details weg. Dus meer talen helpen ook niet.

4. De oplossing: Geef duidelijke instructies

Hoe los je dit op? Je moet de mensen (of de AI die de data schrijft) specifiek vragen om die ontbrekende details te noemen.

  • Slecht instructie: "Beschrijf deze foto." (Dan schrijven mensen: "Een hond.")
  • Goede instructie: "Beschrijf deze foto en zeg precies hoeveel dieren er zijn, waar ze staan ten opzichte van elkaar, en of er dingen ontbreken." (Dan schrijven mensen: "Er zijn twee honden. De ene staat links van de andere. Er is geen kat.")

De onderzoekers hebben een experiment gedaan waarbij ze mensen vroegen om foto's te beschrijven met deze specifieke instructies. Het resultaat? Plotseling waren er veel meer zinnen met "links", "twee", "niet" en "na".

5. Het bewijs

Toen ze een AI-model trainden op deze nieuwe, "bewust samengestelde" data, werd het model veel beter in het redeneren.

  • Conclusie: Het probleem is niet dat de AI dom is. Het probleem is dat de "leraar" (de mens die de data schrijft) te veel informatie weglaat.

Samenvatting in één metafoor

Stel je voor dat je een speler wilt leren voetballen.

  • De oude manier: Je geeft de speler een video van 10 miljoen voetbalwedstrijden, maar de commentatoren zeggen alleen: "Het is een mooie dag" en "Er is een bal." Ze vertellen nooit waar de spelers staan of hoe ze schieten. De speler kijkt urenlang, maar kan niet leren spelen.
  • De nieuwe manier: Je zegt tegen de commentatoren: "Vertel precies waar de spelers staan, hoeveel er zijn, en wat ze niet doen." Nu heeft de speler de juiste informatie om te leren.

De boodschap: Om slimme AI te maken, moeten we stoppen met vertrouwen op "grote aantallen" en beginnen met bewust kiezen wat we in de trainingsdata opnemen. We moeten de instructies voor het verzamelen van data verbeteren, zodat de AI niet alleen ziet, maar ook begrijpt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →