Context-Dependent Affordance Computation in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe een AI de wereld ziet, hangt af van wie hij is

Stel je voor dat je naar een keuken kijkt. Wat zie je?

Als je een kok bent, zie je een snijplank die uitnodigt om te snijden, een pan die roept om vuur en een koelkast die vol zit met ingrediënten.
Als je een veiligheidsagent bent, zie je een mes dat een gevaarlijk wapen is, een open raam dat een inbraakrisico vormt en een stoel die als barricade kan dienen.
Als je een kleine peuter bent, zie je een stoel om op te klimmen, een deksel om als trommel op te slaan en een glanzend fornuis dat eruitziet als een speelgoedauto.

Het is precies dezelfde kamer. Dezelfde objecten. Dezelfde geometrie. Maar wat je doet met die informatie, en wat je er uit haalt, is totaal verschillend.

Dit is precies wat deze nieuwe studie van Dissensus AI ontdekte bij moderne Vision-Language Models (AI's die zowel kunnen zien als begrijpen). De onderzoekers noemen dit "context-afhankelijke affordance-berekening". Laten we dat in gewone taal uitleggen met een paar creatieve vergelijkingen.

1. De Oude Manier: De Bouwvakker

Vroeger dachten we dat computers (en misschien ook onze hersenen) de wereld zo zagen:

Eerst kijken ze naar de vorm (een vierkant houten ding).
Dan herkennen ze het object (dat is een stoel).
Pas daarna denken ze na over wat je er mee kunt doen (daar kun je op zitten).

Dit is als een bouwvakker die eerst alle bakstenen meet en telt, en pas aan het einde vraagt: "Waar gaan we dit huis voor gebruiken?"

2. De Nieuwe Ontdekking: De Chameleontische Kunstenaar

Deze studie toont aan dat moderne AI's (zoals Qwen-VL en LLaVA) werken volgens een heel ander principe. Ze zijn meer als een chameleontische kunstenaar.

De AI kijkt niet eerst naar de vorm. Hij kijkt eerst naar wie hij is en wat hij moet doen.

De AI krijgt een "rol" (bijvoorbeeld: "Je bent een kok").
Direct daarna verandert zijn hele kijk op de wereld. De stoel is niet meer "een houten object", maar "iets om op te staan om de pan te bereiken".

De onderzoekers lieten de AI naar 3.200 verschillende scènes kijken, telkens met een andere "rol" (kok, beveiligingsagent, kind, iemand in een rolstoel, enzovoort).

Het verbazingwekkende resultaat:
Wanneer de rol veranderde, veranderde 90% van de beschrijving van de scène.

De woorden die de AI gebruikten om de kamer te beschrijven, waren voor 90% anders.
Zelfs de betekenis (de diepere zin) veranderde voor bijna 60%.

Het is alsof je een foto van een bos laat zien aan een jager en aan een botanicus. De jager ziet "potentieel wild" en "verstopplekken". De botanicus ziet "plantensoorten" en "ecosystemen". De foto is hetzelfde, maar de "werkelijkheid" die ze zien, is 90% verschillend.

3. De "JIT Ontologie": De Koffiezetapparaat van de Toekomst

De auteurs stellen een nieuw idee voor voor robots in de toekomst: Just-In-Time Ontologie (JIT).

Stel je een robot voor die een "wereldmodel" in zijn hoofd heeft: een statische map met alle objecten en hun eigenschappen. Dit is inefficiënt, omdat de robot 90% van die informatie niet nodig heeft voor zijn huidige taak.

De nieuwe visie is: Maak de wereld pas op het moment dat je hem nodig hebt.

Als de robot een taak krijgt om te koken, "projecteert" hij direct een "keuken-wereld" in zijn hoofd. Alles wat niet relevant is voor koken (zoals een speelgoedauto in de hoek) verdwijnt uit zijn focus.
Als hij daarna de taak krijgt om te beveiligen, schakelt hij direct om naar een "veiligheidswereld". De speelgoedauto is nu irrelevant, maar het open raam is plotseling cruciaal.

Dit is als een koffiezetapparaat dat niet de hele keuken in de gaten houdt, maar alleen de koffiebonen en het water ziet op het moment dat je op de knop drukt. Alles andere is "onzichtbaar" totdat het nodig is.

4. Waarom is dit belangrijk?

Dit onderzoek is een grote stap vooruit voor twee redenen:

Voor Robotica: Het betekent dat we robots niet hoeven te bouwen met een statisch, starre wereldbeeld. In plaats daarvan moeten we robots bouwen die flexibel zijn en hun wereldbeeld direct aanpassen aan wat ze op dat moment moeten doen. Dit maakt robots slimmer en veiliger.
Voor het begrijpen van intelligentie: Het suggereert dat intelligentie (zowel bij mensen als bij AI) niet begint met het meten van vormen, maar met het begrijpen van doelen. We zien de wereld niet zoals hij eruitziet, maar zoals hij voor ons is.

Conclusie

Deze paper zegt eigenlijk: "Kijken is niet passief, het is actief."

Een AI (en misschien ook wijzelf) is geen camera die een foto maakt. Het is een acteur die een rol speelt. En afhankelijk van die rol, verandert de hele set op de scène. De "waarheid" over een object is niet vaststaand; het hangt af van wie er naar kijkt en wat die persoon van plan is.

De boodschap is simpel: De wereld is niet wat je ziet; de wereld is wat je ermee doet.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het werkdocument "Context-Dependent Affordance Computation in Vision-Language Models" van Murad Farzulla, gepresenteerd in het Nederlands.

Titel: Context-afhankelijke Affordance-berekening in Vision-Language Models

Document: DAI-2505 (Dissensus AI Working Paper Series)
Auteur: Murad Farzulla (Dissensus AI & King's College London)
Datum: Januari 2026

1. Het Probleem en de Onderzoeksvraag

Traditionele computervisie-systemen opereren volgens een "geometrie-eerst" (geometry-first) paradigma: visuele verwerking begint met het extraheren van geometrische kenmerken uit pixels, gevolgd door objectherkenning, en pas daarna (indien van toepassing) wordt semantische of functionele informatie (affordances) berekend. Dit wordt vaak voorgesteld als een lineaire pijplijn: $I \rightarrow F_{pixel} \rightarrow O_{object} \rightarrow C_{context} \rightarrow A_{affordance}$ .

Deze aanpak gaat uit van een neutrale, context-onafhankelijke ruimtelijke representatie. Het paper daagt deze assumptie uit op basis van ecologische psychologie (Gibson) en fenomenologie, die suggereren dat waarneming fundamenteel doelgericht en context-afhankelijk is.

De centrale onderzoeksvraag is: Vertonen Vision-Language Models (VLMs) een "semantiek-eerst" (semantic-first) architectuur, waarbij functionele interpretatie (affordances) de geometrische representatie vormgeeft en voorafgaat aan deze, afhankelijk van de context van de agent?

2. Methodologie

De auteurs voerden een grootschalige computationele studie uit om de mate van context-afhankelijkheid in VLMs te kwantificeren.

Dataset: COCO-2017 validatieset, geselecteerd voor scènes met meerdere objecten en interactiepotentieel.
- Totaal: 3.213 geldige (Afbeelding, Context) paren uit 479 unieke afbeeldingen.
Modellen:
- Hoofdstudie: Qwen-VL-30B (high-performance VLM).
- Replicatie: LLaVA-1.5-13B (verschillende architectuur) om generaliseerbaarheid te testen.
Experimenteel Ontwerp (Context Priming):
Voor elke afbeelding werden de modellen geprompt met 7 verschillende "agente persona's" (context primes) om hun perceptie van de scène te sturen:
1. Neutraal: Objectieve analyse.
2. Chef: Focus op koken/voedselbereiding.
3. Beveiliging: Focus op kwetsbaarheden en tactische middelen.
4. Kind (4 jaar): Focus op speelgoed en exploratie.
5. Mobiliteit: Rolstoelgebruiker (focus op obstakels/bereikbaarheid).
6. Dringend: Overlevingstools binnen 30 seconden.
7. Vrije tijd: Relaxatie en genot zonder tijdsdruk.
Data-analyse:
- Affordance-drift: Gemeten via Jaccard-similariteit (woord- en objectniveau) tussen de output van verschillende contexten voor dezelfde afbeelding.
- Latente Structuur: Tucker-decompositie op de embedding-tensor (gebruikmakend van sentence-transformers) om onderliggende functionele dimensies te identificeren.
- Stochastische Baselines: 7.000 inferentieruns over verschillende temperaturen en zaden om te onderscheiden tussen echte context-effecten en generatieruis.

3. Belangrijkste Resultaten

A. Massive Affordance Drift (Massale Drift)

De resultaten tonen een enorme mate van context-afhankelijkheid:

Woordniveau: De gemiddelde Jaccard-similariteit tussen verschillende contextcondities is slechts 0,095 (95% CI: [0,093, 0,096]). Dit betekent dat >90% van de functionele beschrijving van een scène verandert afhankelijk van de agent-context.
Objectniveau: De similariteit is iets hoger (0,119), maar nog steeds zeer laag, wat aangeeft dat zelfs de selectie van welke objecten worden waargenomen context-afhankelijk is.
Semantisch niveau: Zelfs op zinsniveau (cosine similariteit van embeddings) is de drift significant (mean = 0,415), wat impliceert dat 58,5% van de semantische betekenis context-afhankelijk is.

B. Validatie en Robuustheid

Cross-model replicatie: LLaVA-1.5-13B vertoonde een vergelijkbaar patroon (83,9% context-afhankelijkheid), wat suggereert dat dit een eigenschap is van VLM-architecturen in het algemeen en niet specifiek voor Qwen.
Stochastische controle: De variantie tussen verschillende contexten (cross-prime) was aanzienlijk groter dan de variantie binnen dezelfde context bij verschillende zaden (within-prime). Dit bevestigt dat de drift het gevolg is van contextmanipulatie en niet van willekeurige generatieruis.
Menselijke vergelijking: De VLM-output vertoont parallellen met menselijke annotaties in Visual Genome, waarbij functionele beschrijvingen (bijv. "zitten") de voorkeur krijgen boven geometrische beschrijvingen, maar dan expliciet gestuurd door de doelstelling.

C. Latente Functionele Structuur

Tucker-decompositie onthulde stabiele, orthogonale latente factoren:

Culinary Manifold: Geïsoleerd voor de "Chef"-context (lading 0,95). Koken vormt een volledig gescheiden functionele ruimte.
Access Axis: Een dimensie die de tegenstelling tussen "Kind" (ruimtelijke openheid/speelplezier, +0,72) en "Mobiliteit" (ruimtelijke beperking/obstakels, -0,60) weergeeft.
General Salience: Een kleine factor (<1% variantie) die context-onafhankelijke geometrische kenmerken vertegenwoordigt.

4. Kernbijdragen

Empirisch Bewijs: Het paper levert kwantitatief bewijs dat VLMs >90% van hun functionele scène-ontologie dynamisch aanpassen aan de agent-context. Dit weerlegt het idee van een statische, context-onafhankelijke wereldrepresentatie.
Theoretisch Kader: Het introduceert het concept van "Semantic-First Processing" als een computationally voordelige strategie die mogelijk biologische waarneming nabootst, waarbij affordances de geometrie structureren in plaats van andersom.
JIT Ontology (Just-In-Time Ontology): Een voorgestelde richting voor robotica en AI. In plaats van een statisch wereldmodel te bouwen, zouden systemen hun ruimtelijke representatie "Just-In-Time" moeten projecteren op basis van de specifieke taak en doelstellingen van de agent.
Formalisatie: Het introduceert concepten zoals Action-Distance (de afstand tussen objecten gebaseerd op de benodigde acties, niet op Euclidische afstand) en een formele definitie van affordance-mapping die agent-toestand ( $\Theta$ ) als eerste-orde parameter behandelt.

5. Betekenis en Implicaties

Voor Computer Vision: De huidige "object-first" pijplijnen zijn mogelijk inefficiënt. Als 90% van de relevante informatie context-afhankelijk is, dan berekenen statische systemen voornamelijk irrelevante structuren. Een nieuwe architectuur zou context moeten accepteren als een primaire input, niet als een naslag.
Voor Robotica: Static world models zijn mogelijk suboptimaal voor dynamische taken. Systemen die "JIT Ontology" implementeren (zoals VoxPoser) kunnen robuuster zijn omdat ze representaties opnieuw construeren per query, in plaats van vast te zitten aan een statische staat.
Voor Cognitiewetenschap: Hoewel het paper niet claimt dat VLMs biologische hersenen nabootsen, suggereert de convergentie tussen menselijke waarneming (Gibson) en VLM-gedrag dat context-afhankelijke affordance-berekening een fundamenteel principe van intelligent waarnemen is.

Beperkingen: De auteurs benadrukken dat ze geen claims maken over de interne verwerkingsvolgorde (causale prioriteit) binnen het model; dit vereist interne representatie-analyse (bijv. attention probing). De bevindingen zijn beschrijvend voor het output-gedrag van VLMs, niet direct voor biologische neurale mechanismen.

Conclusie: Het werk documenteert een fundamentele verschuiving in hoe visuele systemen (zowel kunstmatig als mogelijk biologisch) de wereld interpreteren: niet als een neutrale container van objecten, maar als een dynamisch veld van handelmogelijkheden dat continu wordt herschreven door de intenties en doelen van de waarnemer.