Context-Dependent Affordance Computation in Vision-Language Models

Die Studie zeigt, dass Vision-Language-Modelle Affordanzen stark kontextabhängig berechnen, wobei sich sowohl die lexikalische als auch die semantische Darstellung drastisch mit dem Kontext verschieben, was auf die Notwendigkeit dynamischer, abfrageabhängiger Ontologien statt statischer Weltmodelle für die Robotik hindeutet.

Murad Farzulla

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das „Sehen durch die Brille" – Eine einfache Erklärung der Studie

Stellen Sie sich vor, Sie betreten einen Raum. Ein klassischer Computer sieht diesen Raum wie ein Architekt: Er misst die Wände, zählt die Möbel und notiert die Farben. Für ihn ist ein Raum eine statische Sammlung von Objekten.

Diese neue Studie von Dissensus AI fragt jedoch: Was passiert, wenn wir nicht nur „sehen", sondern „wissen wollen, was wir tun können"?

Die Forscher haben untersucht, wie moderne KI-Modelle (die sogenannten Vision-Language Models) Bilder verstehen. Das Ergebnis ist überraschend und fast philosophisch: KI sieht nicht das, was da ist, sondern das, was sie gerade braucht.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Der große „Wandel" (Die 90%-Regel)

Die Forscher haben KI-Modellen dasselbe Bild gezeigt, aber ihnen unterschiedliche „Rollen" gegeben.

  • Szenario A: „Stell dir vor, du bist ein Koch."
  • Szenario B: „Stell dir vor, du bist ein Sicherheitsbeamter."
  • Szenario C: „Stell dir vor, du bist ein kleines Kind."

Das Ergebnis? Wenn das Modell die Rolle des Kochs spielt, sieht es im Bild nur Dinge, die man essen oder kochen kann (Töpfe, Messer, Essen). Wenn es die Rolle des Sicherheitsbeamten einnimmt, sieht es plötzlich nur Dinge, die als Waffe benutzt werden könnten oder Fluchtwege blockieren.

Die Metapher:
Stellen Sie sich vor, Sie schauen durch eine magische Brille.

  • Die Koch-Brille lässt alles andere unscharf werden und macht nur die Küche scharf.
  • Die Sicherheits-Brille blendet die Küche aus und hebt nur potenzielle Gefahren hervor.
  • Die Kind-Brille ignoriert beides und sucht nur nach Spielzeug.

Die Studie zeigt, dass 90 % dessen, was die KI „sieht", davon abhängt, welche Brille sie aufhat. Nur 10 % bleiben gleich (die grobe Form des Raumes). Das bedeutet: Die KI baut keine statische Weltkarte, sondern eine dynamische Landkarte, die sich je nach Ziel ändert.

2. Der „Just-in-Time"-Baumeister

Bisher dachten wir, KI müsse erst eine perfekte 3D-Karte der Welt bauen (wie ein Architekt, der jeden Winkel vermessen muss), bevor sie eine Aufgabe erledigt.

Diese Studie schlägt vor, dass KI eher wie ein Bauarbeiter mit einem Werkzeugkasten funktioniert.

  • Wenn er einen Nagel braucht, holt er den Hammer.
  • Wenn er schrauben muss, holt er den Schraubenzieher.
  • Er baut nicht den ganzen Werkzeugkasten neu auf, wenn er nur einen Nagel braucht. Er holt sich nur das Werkzeug, das er gerade für die Aufgabe braucht.

Die Forscher nennen das „Just-in-Time Ontologie". Das bedeutet: Die KI erstellt ihre Vorstellung von der Welt erst in dem Moment, in dem sie eine Frage bekommt. Sie fragt nicht: „Was ist in diesem Bild?", sondern: „Was kann ich jetzt mit diesem Bild tun?"

3. Warum ist das wichtig?

Das ist ein riesiger Schritt für die Robotik.

  • Der alte Weg: Ein Roboter versucht, die ganze Welt zu verstehen. Das ist langsam und ineffizient, weil er sich mit Dingen beschäftigt, die für seine Aufgabe irrelevant sind (wie ein Koch, der sich Sorgen um die Sicherheitstür macht).
  • Der neue Weg: Der Roboter fragt sich: „Ich muss kochen. Was ist für das Kochen relevant?" Und nur das wird wichtig. Das macht ihn schneller und schlauer.

4. Ein wichtiger Unterschied: Was ist „echt"?

Die Autoren betonen eine wichtige Unterscheidung:

  • Ein Stuhl ist immer ein Stuhl (das ist die Geometrie).
  • Aber für einen Koch ist der Stuhl ein „Tisch zum Aufstellen von Zutaten".
  • Für einen Sicherheitsbeamten ist derselbe Stuhl ein „Möbelstück, das man umwerfen kann, um einen Weg zu blockieren".

Die KI ändert nicht den Stuhl selbst, aber sie ändert radikal, worauf sie ihre Aufmerksamkeit richtet. Das ist kein Fehler der KI, sondern ein Zeichen von Intelligenz: Sie filtert das Unwichtige heraus, um das Wichtige zu finden.

Fazit

Diese Studie zeigt uns, dass intelligente Systeme (ob KI oder vielleicht auch unser menschliches Gehirn) nicht wie eine Kamera funktionieren, die ein statisches Foto macht. Sie funktionieren eher wie ein Detektiv, der in einen Raum geht.

Der Detektiv sieht nicht alles gleichzeitig. Er sieht nur das, was zu seinem Fall passt. Wenn er nach einem Dieb sucht, sieht er offene Fenster. Wenn er nach einem vermissten Kind sucht, sieht er Spielzeuge.

Die Botschaft: Die Welt ist nicht festgelegt. Was wir sehen, hängt davon ab, was wir gerade tun wollen. Und die KI hat gelernt, genau das zu tun.