Context-Dependent Affordance Computation in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das „Sehen durch die Brille" – Eine einfache Erklärung der Studie

Stellen Sie sich vor, Sie betreten einen Raum. Ein klassischer Computer sieht diesen Raum wie ein Architekt: Er misst die Wände, zählt die Möbel und notiert die Farben. Für ihn ist ein Raum eine statische Sammlung von Objekten.

Diese neue Studie von Dissensus AI fragt jedoch: Was passiert, wenn wir nicht nur „sehen", sondern „wissen wollen, was wir tun können"?

Die Forscher haben untersucht, wie moderne KI-Modelle (die sogenannten Vision-Language Models) Bilder verstehen. Das Ergebnis ist überraschend und fast philosophisch: KI sieht nicht das, was da ist, sondern das, was sie gerade braucht.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Der große „Wandel" (Die 90%-Regel)

Die Forscher haben KI-Modellen dasselbe Bild gezeigt, aber ihnen unterschiedliche „Rollen" gegeben.

Szenario A: „Stell dir vor, du bist ein Koch."
Szenario B: „Stell dir vor, du bist ein Sicherheitsbeamter."
Szenario C: „Stell dir vor, du bist ein kleines Kind."

Das Ergebnis? Wenn das Modell die Rolle des Kochs spielt, sieht es im Bild nur Dinge, die man essen oder kochen kann (Töpfe, Messer, Essen). Wenn es die Rolle des Sicherheitsbeamten einnimmt, sieht es plötzlich nur Dinge, die als Waffe benutzt werden könnten oder Fluchtwege blockieren.

Die Metapher:
Stellen Sie sich vor, Sie schauen durch eine magische Brille.

Die Koch-Brille lässt alles andere unscharf werden und macht nur die Küche scharf.
Die Sicherheits-Brille blendet die Küche aus und hebt nur potenzielle Gefahren hervor.
Die Kind-Brille ignoriert beides und sucht nur nach Spielzeug.

Die Studie zeigt, dass 90 % dessen, was die KI „sieht", davon abhängt, welche Brille sie aufhat. Nur 10 % bleiben gleich (die grobe Form des Raumes). Das bedeutet: Die KI baut keine statische Weltkarte, sondern eine dynamische Landkarte, die sich je nach Ziel ändert.

2. Der „Just-in-Time"-Baumeister

Bisher dachten wir, KI müsse erst eine perfekte 3D-Karte der Welt bauen (wie ein Architekt, der jeden Winkel vermessen muss), bevor sie eine Aufgabe erledigt.

Diese Studie schlägt vor, dass KI eher wie ein Bauarbeiter mit einem Werkzeugkasten funktioniert.

Wenn er einen Nagel braucht, holt er den Hammer.
Wenn er schrauben muss, holt er den Schraubenzieher.
Er baut nicht den ganzen Werkzeugkasten neu auf, wenn er nur einen Nagel braucht. Er holt sich nur das Werkzeug, das er gerade für die Aufgabe braucht.

Die Forscher nennen das „Just-in-Time Ontologie". Das bedeutet: Die KI erstellt ihre Vorstellung von der Welt erst in dem Moment, in dem sie eine Frage bekommt. Sie fragt nicht: „Was ist in diesem Bild?", sondern: „Was kann ich jetzt mit diesem Bild tun?"

3. Warum ist das wichtig?

Das ist ein riesiger Schritt für die Robotik.

Der alte Weg: Ein Roboter versucht, die ganze Welt zu verstehen. Das ist langsam und ineffizient, weil er sich mit Dingen beschäftigt, die für seine Aufgabe irrelevant sind (wie ein Koch, der sich Sorgen um die Sicherheitstür macht).
Der neue Weg: Der Roboter fragt sich: „Ich muss kochen. Was ist für das Kochen relevant?" Und nur das wird wichtig. Das macht ihn schneller und schlauer.

4. Ein wichtiger Unterschied: Was ist „echt"?

Die Autoren betonen eine wichtige Unterscheidung:

Ein Stuhl ist immer ein Stuhl (das ist die Geometrie).
Aber für einen Koch ist der Stuhl ein „Tisch zum Aufstellen von Zutaten".
Für einen Sicherheitsbeamten ist derselbe Stuhl ein „Möbelstück, das man umwerfen kann, um einen Weg zu blockieren".

Die KI ändert nicht den Stuhl selbst, aber sie ändert radikal, worauf sie ihre Aufmerksamkeit richtet. Das ist kein Fehler der KI, sondern ein Zeichen von Intelligenz: Sie filtert das Unwichtige heraus, um das Wichtige zu finden.

Fazit

Diese Studie zeigt uns, dass intelligente Systeme (ob KI oder vielleicht auch unser menschliches Gehirn) nicht wie eine Kamera funktionieren, die ein statisches Foto macht. Sie funktionieren eher wie ein Detektiv, der in einen Raum geht.

Der Detektiv sieht nicht alles gleichzeitig. Er sieht nur das, was zu seinem Fall passt. Wenn er nach einem Dieb sucht, sieht er offene Fenster. Wenn er nach einem vermissten Kind sucht, sieht er Spielzeuge.

Die Botschaft: Die Welt ist nicht festgelegt. Was wir sehen, hängt davon ab, was wir gerade tun wollen. Und die KI hat gelernt, genau das zu tun.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Arbeitspapiers „Context-Dependent Affordance Computation in Vision-Language Models" von Murad Farzulla (Dissensus AI, Januar 2026) auf Deutsch.

1. Problemstellung und Motivation

Das Papier hinterfragt die fundamentale Annahme der modernen Computer Vision (CV): dass visuelle Verarbeitung primär eine geometrische Aufgabe ist, bei der erst Merkmale extrahiert, dann Objekte erkannt und erst im Nachhinein (falls überhaupt) funktionale Eigenschaften (Affordanzen) berechnet werden. Dieser Ansatz folgt einer „geometrie-zuerst"-Pipeline ( $I \to \text{Geometrie} \to \text{Objekte} \to \text{Kontext} \to \text{Affordanzen}$ ).

Die Autoren argumentieren, basierend auf ökologischer Psychologie (Gibson), Phänomenologie und kognitiver Neurowissenschaft, dass biologische Systeme und möglicherweise auch fortschrittliche KI-Modelle eine „semantik-zuerst"-Architektur nutzen könnten. In diesem Modell wird die funktionale Interpretation eines Szenarios (was kann ich damit tun?) priorisiert und strukturiert die geometrische Darstellung, anstatt umgekehrt.

Die zentrale Forschungsfrage lautet: Zeigen Vision-Language-Modelle (VLMs) ein kontextabhängiges Verhalten bei der Berechnung von Affordanzen, das mit einer semantik-zuerst-Architektur konsistent ist?

2. Methodik

Die Studie ist eine groß angelegte computergestützte Untersuchung, die folgende Komponenten umfasst:

Datensatz: 3.213 Szenen-Kontext-Paare aus dem COCO-2017-Validierungsset (479 Bilder).
Modelle:
- Hauptmodell: Qwen-VL-30B (30 Milliarden Parameter).
- Replikation: LLaVA-1.5-13B zur Überprüfung der Generalisierbarkeit.
Experimentelles Design (Context Priming):
Für jedes Bild wurden die Modelle unter 7 verschiedenen „Agenten-Personas" (Kontext-Primes) befragt, um zu testen, wie sich die Beschreibung der Szene ändert:
1. Neutral (Objektive Analyse)
2. Koch (Fokus auf Essen/Zubereitung)
3. Sicherheit (Fokus auf Verwundbarkeit/Verteidigung)
4. Kind (4 Jahre alt, Fokus auf Spiel/Exploration)
5. Mobilität (Rollstuhlnutzer, Fokus auf Hindernisse/Zugang)
6. Dringlich (Überlebenswerkzeug in 30 Sekunden)
7. Freizeit (Entspannung ohne Zeitdruck)
Analyseverfahren:
- Affordance-Drift-Messung: Berechnung der Jaccard-Ähnlichkeit (Wort- und Objektebene) zwischen den Ausgaben verschiedener Kontexte.
- Tensor-Zerlegung: Anwendung der Tucker-Zerlegung auf die Embeddings der Textausgaben (mittels Sentence-BERT), um latente funktionale Faktoren zu identifizieren.
- Stochastische Baseline: 2.384 Inferenzläufe über 4 Temperaturen (0.0–1.0) und 5 Seeds, um zu beweisen, dass die Drift nicht auf Rauschen, sondern auf echte Kontexteffekte zurückzuführen ist.
- Statistische Tests: Permutationstests und Bootstrap-Analysen (n=1.000 Resamples) zur Bestätigung der Signifikanz und Stabilität.

3. Schlüsselbeiträge

Quantifizierung des Kontext-Drifts: Erster empirischer Nachweis, dass VLMs eine massive Kontextabhängigkeit bei der Berechnung von Affordanzen aufweisen.
Theoretisches Framework: Einführung des Konzepts der „Just-In-Time (JIT) Ontologie" für Robotik. Statt eines statischen Weltmodells wird vorgeschlagen, räumliche Darstellungen dynamisch und aufgabenabhängig zu projizieren.
Strukturelle Entschlüsselung: Identifikation stabiler, latenter Faktoren (z. B. „Kulinarische Mannigfaltigkeit", „Zugangs-Achse"), die zeigen, dass Kontextabhängigkeit nicht diffus ist, sondern in interpretierbaren funktionalen Kategorien organisiert ist.
Methodische Strenge: Umfassende Kontrollen gegen stochastisches Rauschen und Replikation über verschiedene Modellarchitekturen hinweg.

4. Ergebnisse

Die Studie liefert folgende quantitative und qualitative Ergebnisse:

Massive Affordance-Drift:
- Die mittlere Jaccard-Ähnlichkeit zwischen den lexikalischen Beschreibungen unter verschiedenen Kontexten beträgt nur 0,095 (95% CI: [0,093, 0,096]).
- Dies bedeutet, dass > 90% der funktionalen Szenen-Ontologie (welche Objekte als relevant beschrieben werden und wie) vom Kontext abhängen.
- Auf semantischer Ebene (Sentence Cosine Similarity) beträgt die Ähnlichkeit 0,415, was immer noch einen 58,5%igen Kontext-Drift bedeutet.
Stochastische Validierung:
- Die Varianz zwischen verschiedenen Kontexten (Cross-Prime) ist um ein Vielfaches höher als die Varianz innerhalb desselben Kontexts bei unterschiedlichen Seeds (Varianzverhältnis > 3). Dies bestätigt, dass der Drift durch den Kontext und nicht durch Modellrauschen verursacht wird.
Latente Struktur (Tucker-Zerlegung):
- Die Analyse ergab stabile orthogonale Faktoren:
  - Dim2 (Kulinarische Mannigfaltigkeit): Isoliert für den „Koch"-Kontext (Ladung 0,95).
  - Dim3 (Zugangs-Achse): Zeigt einen Kontrast zwischen „Kind" (positiv, Offenheit/Spiel) und „Mobilität" (negativ, Hindernisse/Einschränkung).
- Diese Faktoren bleiben über 1.000 Bootstrap-Resamples hinweg stabil (Kongruenz > 0,99).
Replikation:
- Die Ergebnisse wurden mit LLaVA-1.5-13B repliziert (Drift von ~84%), was darauf hindeutet, dass dies ein allgemeines Merkmal von VLM-Architekturen ist und nicht nur ein Artefakt eines spezifischen Modells.
Vergleich mit menschlicher Wahrnehmung:
- Der Vergleich mit menschlichen Annotationen aus Visual Genome zeigt, dass auch Menschen funktional beschreiben („zum Sitzen geeignet") und nicht rein geometrisch. Die VLMs spiegeln diese kontextsensitive Selektion wider, wobei die VLMs den Kontext explizit über Prompts erhalten, während er beim Menschen implizit ist.

5. Bedeutung und Implikationen

Für die Robotik (JIT Ontology):
Die Ergebnisse legen nahe, dass der Versuch, ein einziges statisches, kontextunabhängiges „Weltmodell" für Roboter zu erstellen, ineffizient ist. Da 90% der relevanten Information kontextabhängig ist, sollte die räumliche Repräsentation Just-In-Time (zur Laufzeit, abgefragt durch die spezifische Aufgabe) konstruiert werden. Systeme wie VoxPoser oder SayCan beginnen dies bereits zu implementieren, aber die Studie liefert die theoretische und quantitative Begründung dafür.
Für die Computer Vision:
Die traditionelle Pipeline (Geometrie $\to$ Semantik) könnte fundamental falsch sein. Ein effizienterer Ansatz wäre eine semantik-zuerst-Pipeline, bei der die Aufgabe/Kontext als Eingabe dient, die geometrische Verarbeitung steuert. Geometrische Merkmale wären dann nur noch ein kleiner, kontextinvarianter Rest (ca. 10%).
Theoretische Einordnung:
Die Studie stützt die Hypothese, dass Aufmerksamkeit und kognitive Ressourcen nicht passiv auf geometrische Salienz reagieren, sondern aktiv durch Ziele und Affordanzen gesteuert werden (Affordance Competition Hypothesis nach Cisek).
Einschränkungen:
Die Autoren betonen, dass sie keine kausale Reihenfolge der neuronalen Verarbeitung in biologischen Systemen beweisen, sondern nur das Verhalten von VLMs beschreiben. Die Ergebnisse sind deskriptiv für KI-Systeme und dienen als Hypothese für die biologische Kognition, die noch durch verhaltenswissenschaftliche Studien validiert werden muss.

Fazit: Das Papier demonstriert, dass Vision-Language-Modelle keine stabilen geometrischen Abbildungen der Welt erstellen, sondern dynamische, aufgabenabhängige Projektionen. Dies fordert ein Umdenken in der Architektur von Robotik- und CV-Systemen weg von statischen Weltmodellen hin zu kontextsensitiven, „on-demand"-Ontologien.

Context-Dependent Affordance Computation in Vision-Language Models

1. Der große „Wandel" (Die 90%-Regel)

2. Der „Just-in-Time"-Baumeister

3. Warum ist das wichtig?

4. Ein wichtiger Unterschied: Was ist „echt"?

Fazit

1. Problemstellung und Motivation

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers