From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, wie man ein komplexes Haus aufräumt. Das Problem ist: Der Roboter sieht die Welt nur als ein riesiges Raster aus Millionen von einzelnen Bildpunkten (Pixeln). Für ihn ist ein Stuhl nur eine Ansammlung von braunen und schwarzen Pixeln, kein „Stuhl".

Die Forscher in diesem Papier haben eine clevere Methode entwickelt, namens pix2pred, um diesem Roboter zu helfen, von diesen chaotischen Bildpunkten zu klaren, logischen Gedanken zu gelangen. Man könnte es wie einen Übersetzer oder einen Lehrer vorstellen, der einem Kind beibringt, die Welt zu verstehen.

Hier ist die Erklärung in einfachen Schritten:

1. Das Problem: Der Roboter ist blind für Bedeutung

Stellen Sie sich vor, Sie zeigen einem Roboter ein Video, in dem eine Person einen Tisch abwäscht und dann einen Stift in einen Mülleimer wirft. Der Roboter sieht nur Bewegungen und Farbveränderungen. Wenn Sie ihn dann bitten, einen neuen Stift in einem neuen Raum in einen neuen Mülleimer zu werfen, scheitern viele Roboter. Warum? Weil sie nur das Gesehene nachahmen (wie ein Papagei), aber nicht verstehen, warum die Handlung funktioniert. Sie wissen nicht, dass ein „Stift" etwas ist, das man greifen kann, oder dass ein „Mülleimer" etwas ist, in das man Dinge wirft.

2. Die Lösung: Ein neuer Lehrer (Der VLM)

Die Forscher nutzen eine moderne KI, die wir als VLM (Vision-Language-Modell) bezeichnen. Stellen Sie sich dieses VLM wie einen sehr klugen, weltreisenden Lehrer vor, der sowohl Bilder als auch Sprache perfekt versteht.

Der Trick: Anstatt dem Roboter zu sagen, was er tun soll, fragen sie diesen „Lehrer": „Schau dir dieses Bild an. Was ist hier wichtig? Was ist ein Tisch? Was ist ein Stift? Ist der Tisch sauber oder schmutzig?"
Der Lehrer schlägt dem Roboter eine Liste von Begriffen (Predikaten) vor. Statt nur Pixel zu sehen, lernt der Roboter Begriffe wie: „IstDerStiftAufDemTisch?", „IstDerMülleimerLeer?" oder „IstDieHandLeer?".

3. Die Auswahl: Der Filter

Der Lehrer schlägt vielleicht 100 Begriffe vor. Manche sind super nützlich, andere sind Quatsch (z. B. „IstDerStiftBlau?", wenn die Farbe für die Aufgabe egal ist).
Hier kommt der zweite Teil des Systems ins Spiel: Ein intelligenter Filter.

Der Roboter schaut sich die wenigen Demonstrationsvideos an (die nur von Menschen gemacht wurden).
Er testet, welche der 100 Begriffe ihm wirklich helfen, die Aufgabe zu planen.
Er wirft die unnötigen Begriffe weg und behält nur die wenigen, wirklich wichtigen.
Analogie: Es ist wie beim Packen für eine Reise. Der Lehrer schlägt vor: „Nimm Socken, Schuhe, einen Hut, eine Jacke, einen Regenschirm, ein Buch, einen Hammer..." Der Filter sagt: „Halt! Wir gehen nur in den Park. Wir brauchen nur Socken, Schuhe und vielleicht einen Hut. Den Hammer lassen wir zu Hause."

4. Das Ergebnis: Ein Welt-Modell

Am Ende hat der Roboter ein symbolisches Weltmodell gelernt. Das ist wie eine Landkarte aus logischen Regeln.

Er weiß nicht mehr nur, wie ein Bild aussieht. Er weiß: „Wenn ich einen Stift habe und ein Mülleimer da ist, kann ich den Stift in den Mülleimer werfen."
Er kann nun planen. Wenn er eine neue Aufgabe bekommt (z. B. „Räume den Tisch ab, aber der Stift ist in einer Kiste"), denkt er: „Okay, zuerst muss ich die Kiste öffnen (neue Regel!), dann den Stift nehmen, dann den Tisch wischen."

5. Warum ist das so cool? (Die Magie der Verallgemeinerung)

Das Beste an dieser Methode ist, dass der Roboter extrem gut verallgemeinern kann.

Beispiel: Der Roboter wurde trainiert, wie man einen roten Apfel in einen Korb legt.
Test: Im Test muss er einen blauen Ball in einen Eimer legen.
Ergebnis: Er schafft es! Warum? Weil er nicht gelernt hat, „roten Apfel in Korb zu legen". Er hat gelernt, das Konzept „Objekt in Behälter legen" zu verstehen. Er hat die Logik verstanden, nicht nur die Pixel.

Zusammenfassung in einem Satz

Die Forscher haben einen Roboter so trainiert, dass er nicht nur auf Bilder schaut, sondern mit Hilfe einer KI einen Wortschatz entwickelt, um die Welt zu beschreiben, und dann aus diesem Wortschatz die wichtigsten Regeln auswählt, um neue, noch nie gesehene Aufgaben selbstständig zu planen – ähnlich wie ein Mensch, der lernt, nicht nur nachzuahmen, sondern zu verstehen.

Das Ziel: Roboter, die nicht nur wie programmierte Maschinen funktionieren, sondern wie kleine, lernfähige Assistenten, die auch in völlig neuen Umgebungen (wie einem fremden Haus) zurechtkommen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models" auf Deutsch.

1. Problemstellung

Das zentrale Ziel der Forschung ist die Lösung von langfristigen Entscheidungsproblemen in komplexen Robotik-Domänen. Roboter müssen aus niedrigen Sensoreingaben (Bilder/Pixel) abstrakte Pläne erstellen, um vielfältige Aufgaben zu erfüllen (z. B. „Tisch abwischen und aufräumen").

Die Hauptherausforderungen sind:

Hohe Variabilität: Objekte, Anordnungen, visuelle Hintergründe und Zielspezifikationen variieren stark.
Generalisierung: Herkömmliche Methoden (wie Imitationslernen ohne Modell) scheitern oft an neuen Szenarien, da sie spezifische Muster aus Trainingsdaten kopieren statt kausale Zusammenhänge zu verstehen.
Fehlende Abstraktion: Um effizient zu planen, benötigt ein Roboter eine symbolische Repräsentation der Welt (Prädikate), die aus rohen Pixeln abgeleitet wird. Das Erfinden dieser Prädikate ist schwierig, da keine vordefinierten Regeln oder Constraints gegeben sind.

Das Paper adressiert die Frage, wie man aus wenigen kurzen Demonstrationen (nur Bilder) ein symbolisches Weltmodell lernen kann, das eine Zero-Shot-Generalisierung auf völlig neue Ziele und Umgebungen ermöglicht.

2. Methodik: pix2pred

Die Autoren stellen pix2pred vor, eine Methode, die vortrainierte Vision-Language-Modelle (VLMs) nutzt, um symbolische Prädikate zu erfinden und ein Weltmodell zu lernen. Der Prozess gliedert sich in drei Hauptphasen:

A. Vorschlag von Prädikaten (Predicate Proposal)

Anstatt Prädikate manuell zu definieren oder nur aus Zustandspartitionierungen abzuleiten, nutzt pix2pred die semantischen Fähigkeiten eines VLMs:

Eingabe: Dem VLM werden die Bilder der Demonstrationen (vor und nach jeder Aktion) sowie die Namen der ausgeführten Fähigkeiten (Skills) und Objektbeschreibungen bereitgestellt.
Generierung: Das VLM wird aufgefordert, eine große Menge an potenziell relevanten Ground Atoms (konkrete Aussagen wie IsEraser(obj1)) vorzuschlagen, die sich auf die Demonstrationen beziehen.
Lifting: Diese konkreten Vorschläge werden automatisch in typisierte Prädikate umgewandelt (z. B. von IsEraser(eraser1) zu IsEraser(?obj:movable)).
Filterung: Nicht syntaktisch korrekte oder irrelevante Vorschläge werden entfernt. Das Ergebnis ist ein großer Pool an Kandidaten-Prädikaten ( $\Psi_{pool}$ ).

B. Implementierung und Bewertung

Jedes vorgeschlagene Prädikat wird direkt über das VLM als Klassifikator implementiert:

Das VLM erhält ein Bild (oder eine Bildsequenz) und eine Abfrage (Prompt) zum Prädikat.
Es gibt einen Wahrheitswert (True, False oder Unknown) zurück.
Dies ermöglicht die direkte Abbildung von Pixeln auf symbolische Wahrheiten ohne manuelle Feature-Engineering-Schritte.

C. Optimierungsbasierte Modellauswahl (Subselection)

Da der Pool an Prädikaten oft hunderte oder tausende Einträge umfasst und viele redundant oder verrauscht sind, wird ein Hill-Climbing-Optimierungsverfahren verwendet:

Ziel: Es wird ein symbolisches Weltmodell gelernt, das die Demonstrationen erklärt und gleichzeitig eine effiziente Planung ermöglicht.
Prozess: Das Algorithmus wählt schrittweise eine Teilmenge von Prädikaten aus dem Pool aus, die den Planungs-Objektivwert (z. B. Erfolg bei der Nachbildung der Demonstrationen) maximieren.
Robustheit: Das Verfahren ist so angepasst, dass es mit dem Rauschen umgeht, das durch die VLM-basierte Klassifikation entsteht (z. B. durch „weiche" Schnittmengen bei der Vorbedingungslernung und das Entfernen von Operatoren, die zu wenig Daten abdecken).
Ergebnis: Ein kompaktes Set an Prädikaten und symbolischen Operatoren (PDDL-Stil), die die Dynamik der Welt beschreiben.

D. Inferenz (Deployment)

Im Testbetrieb:

Das VLM beschreibt den aktuellen Zustand der Welt basierend auf den Kamera-Bildern und den gelernten Prädikaten.
Ein suchbasierter Planer (Search-based Planner) nutzt das gelernte symbolische Modell, um eine Sequenz von Low-Level-Skills zu finden, die das neue Ziel erreichen.
Der Roboter führt die Aktionen aus und replant bei Bedarf.

3. Wichtige Beiträge

Neue Methode zur Prädikaterfindung: Die Kombination aus VLMs zur Generierung von Prädikaten und einer nachgelagerten Optimierung zur Auswahl ist neuartig. Es wird nicht nur auf die semantische Stärke des VLMs vertraut, sondern das Modell wird durch den Planungs-Objektivwert verfeinert.
Lernen aus Offline-Demonstrationen: Im Gegensatz zu vielen anderen Ansätzen, die Online-Interaktion oder Kontrastsignale (Erfolg/Misserfolg) benötigen, lernt pix2pred ausschließlich aus einer kleinen Menge positiver Demonstrationen (z. B. menschliche Videos).
Robustheit gegenüber VLM-Rauschen: Die Autoren entwickeln spezifische Techniken (Soft Precondition Intersection, Pruning), um die inhärente Unsicherheit von VLM-Klassifikationen in einem symbolischen Planungsrahmen zu handhaben.
Aggressive Generalisierung: Das System kann Aufgaben lösen, die in Anzahl der Objekte, Komplexität der Ziele und Länge der Aktionssequenzen weit über das Trainingsniveau hinausgehen.

4. Ergebnisse

Die Methode wurde in Simulation und der realen Welt (mit einem Boston Dynamics Spot-Roboter) evaluiert.

Simulationsdomänen: In Domänen wie Cleanup, Juice, Kitchen, Burger und Coffee übertraf pix2pred signifikant Baselines wie ViLa (direktes VLM-Planen ohne Abstraktion) und andere Abstraktionsmethoden.
- Generalisierung: pix2pred löste erfolgreich Aufgaben mit mehr Objekten, komplexeren Zielen und längeren Horizonten (bis zu 30 Schritte), bei denen Baselines versagten.
- Vergleich mit ViLa: ViLa neigte zum „Pattern Matching" (Nachahmen von Trainingsmustern) und scheiterte bei Szenarien, die echte Generalisierung erforderten (z. B. wenn das Objekt, das gehalten wird, zuerst abgelegt werden muss). pix2pred erfand hierfür das Prädikat HandEmpty, was dem Planer erlaubte, korrekte Sequenzen zu finden.
Reale Welt: Der Spot-Roboter konnte komplexe Aufgaben wie das Reinigen eines Tisches und das Bedienen einer Saftpresse in völlig neuen Räumen mit neuen Objekten lösen, basierend auf nur 6–10 menschlichen Demonstrationen.
Ablationsstudien: Die Studie zeigte, dass die explizite Subselektion der Prädikate entscheidend ist. Ein direkter VLM-Auswahlansatz ohne Optimierung führte zu überfüllten Modellen und schlechter Generalisierung.

5. Bedeutung und Fazit

Das Paper demonstriert einen vielversprechenden Weg, um strukturierte, interpretierbare Weltmodelle direkt aus visuellen Daten zu lernen.

Brücke zwischen Subsymbolisch und Symbolisch: Es schließt die Lücke zwischen tiefen neuronalen Netzen (die Bilder verstehen) und symbolischer KI (die effizient planen kann).
Effizienz: Durch die Nutzung von VLMs als „Werkzeugkasten" für Prädikate wird der Bedarf an manueller Domänen-Expertise reduziert.
Skalierbarkeit: Die Fähigkeit, aus wenigen Demonstrationen zu lernen und auf völlig neue Szenarien zu generalisieren, ist ein wichtiger Schritt hin zu universellen Robotern, die in dynamischen menschlichen Umgebungen agieren können.

Die Autoren sehen pix2pred als komplementär zu Online-Lernansätzen: Es kann ein initiales Weltmodell aus Offline-Daten bereitstellen, das dann durch Online-Interaktion weiter verfeinert wird.