Context-Dependent Affordance Computation in Vision-Language Models

Deze studie toont aan dat Vision-Language-modellen contextafhankelijke affordances berekenen, waarbij zowel de woordkeuze als de semantische betekenis sterk variëren afhankelijk van de context, wat wijst op de noodzaak van dynamische, query-afhankelijke ontologische projectie in de robotica.

Murad Farzulla

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe een AI de wereld ziet, hangt af van wie hij is

Stel je voor dat je naar een keuken kijkt. Wat zie je?

  • Als je een kok bent, zie je een snijplank die uitnodigt om te snijden, een pan die roept om vuur en een koelkast die vol zit met ingrediënten.
  • Als je een veiligheidsagent bent, zie je een mes dat een gevaarlijk wapen is, een open raam dat een inbraakrisico vormt en een stoel die als barricade kan dienen.
  • Als je een kleine peuter bent, zie je een stoel om op te klimmen, een deksel om als trommel op te slaan en een glanzend fornuis dat eruitziet als een speelgoedauto.

Het is precies dezelfde kamer. Dezelfde objecten. Dezelfde geometrie. Maar wat je doet met die informatie, en wat je er uit haalt, is totaal verschillend.

Dit is precies wat deze nieuwe studie van Dissensus AI ontdekte bij moderne Vision-Language Models (AI's die zowel kunnen zien als begrijpen). De onderzoekers noemen dit "context-afhankelijke affordance-berekening". Laten we dat in gewone taal uitleggen met een paar creatieve vergelijkingen.

1. De Oude Manier: De Bouwvakker

Vroeger dachten we dat computers (en misschien ook onze hersenen) de wereld zo zagen:

  1. Eerst kijken ze naar de vorm (een vierkant houten ding).
  2. Dan herkennen ze het object (dat is een stoel).
  3. Pas daarna denken ze na over wat je er mee kunt doen (daar kun je op zitten).

Dit is als een bouwvakker die eerst alle bakstenen meet en telt, en pas aan het einde vraagt: "Waar gaan we dit huis voor gebruiken?"

2. De Nieuwe Ontdekking: De Chameleontische Kunstenaar

Deze studie toont aan dat moderne AI's (zoals Qwen-VL en LLaVA) werken volgens een heel ander principe. Ze zijn meer als een chameleontische kunstenaar.

De AI kijkt niet eerst naar de vorm. Hij kijkt eerst naar wie hij is en wat hij moet doen.

  • De AI krijgt een "rol" (bijvoorbeeld: "Je bent een kok").
  • Direct daarna verandert zijn hele kijk op de wereld. De stoel is niet meer "een houten object", maar "iets om op te staan om de pan te bereiken".

De onderzoekers lieten de AI naar 3.200 verschillende scènes kijken, telkens met een andere "rol" (kok, beveiligingsagent, kind, iemand in een rolstoel, enzovoort).

Het verbazingwekkende resultaat:
Wanneer de rol veranderde, veranderde 90% van de beschrijving van de scène.

  • De woorden die de AI gebruikten om de kamer te beschrijven, waren voor 90% anders.
  • Zelfs de betekenis (de diepere zin) veranderde voor bijna 60%.

Het is alsof je een foto van een bos laat zien aan een jager en aan een botanicus. De jager ziet "potentieel wild" en "verstopplekken". De botanicus ziet "plantensoorten" en "ecosystemen". De foto is hetzelfde, maar de "werkelijkheid" die ze zien, is 90% verschillend.

3. De "JIT Ontologie": De Koffiezetapparaat van de Toekomst

De auteurs stellen een nieuw idee voor voor robots in de toekomst: Just-In-Time Ontologie (JIT).

Stel je een robot voor die een "wereldmodel" in zijn hoofd heeft: een statische map met alle objecten en hun eigenschappen. Dit is inefficiënt, omdat de robot 90% van die informatie niet nodig heeft voor zijn huidige taak.

De nieuwe visie is: Maak de wereld pas op het moment dat je hem nodig hebt.

  • Als de robot een taak krijgt om te koken, "projecteert" hij direct een "keuken-wereld" in zijn hoofd. Alles wat niet relevant is voor koken (zoals een speelgoedauto in de hoek) verdwijnt uit zijn focus.
  • Als hij daarna de taak krijgt om te beveiligen, schakelt hij direct om naar een "veiligheidswereld". De speelgoedauto is nu irrelevant, maar het open raam is plotseling cruciaal.

Dit is als een koffiezetapparaat dat niet de hele keuken in de gaten houdt, maar alleen de koffiebonen en het water ziet op het moment dat je op de knop drukt. Alles andere is "onzichtbaar" totdat het nodig is.

4. Waarom is dit belangrijk?

Dit onderzoek is een grote stap vooruit voor twee redenen:

  1. Voor Robotica: Het betekent dat we robots niet hoeven te bouwen met een statisch, starre wereldbeeld. In plaats daarvan moeten we robots bouwen die flexibel zijn en hun wereldbeeld direct aanpassen aan wat ze op dat moment moeten doen. Dit maakt robots slimmer en veiliger.
  2. Voor het begrijpen van intelligentie: Het suggereert dat intelligentie (zowel bij mensen als bij AI) niet begint met het meten van vormen, maar met het begrijpen van doelen. We zien de wereld niet zoals hij eruitziet, maar zoals hij voor ons is.

Conclusie

Deze paper zegt eigenlijk: "Kijken is niet passief, het is actief."

Een AI (en misschien ook wijzelf) is geen camera die een foto maakt. Het is een acteur die een rol speelt. En afhankelijk van die rol, verandert de hele set op de scène. De "waarheid" over een object is niet vaststaand; het hangt af van wie er naar kijkt en wat die persoon van plan is.

De boodschap is simpel: De wereld is niet wat je ziet; de wereld is wat je ermee doet.