From Next Token Prediction to (STRIPS) World Models

Diese Studie zeigt, dass sowohl ein symbolisch ausgerichteter STRIPS-Transformer als auch ein Standard-Transformer mit Stick-Breaking-Aufmerksamkeit aus reinen Aktionsverläufen STRIPS-World-Modelle lernen können, die eine zuverlässige Planung über exponentiell viele ungesehene Zustände und Ziele hinweg ermöglichen, wobei der Standard-Transformer dabei eine bessere Generalisierungsfähigkeit aufweist.

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner

Veröffentlicht 2026-03-12
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Von der nächsten Vorhersage zum Welt-Modell: Eine Reise in die Welt der KI-Planung

Stellen Sie sich vor, Sie lernen eine neue Sprache, indem Sie nur Sätze hören und versuchen, das nächste Wort vorherzusagen. Ein normales KI-Modell (wie ein großer Chatbot) macht das sehr gut: Es sagt „Der Himmel ist..." und dann kommt wahrscheinlich „blau". Aber versteht es wirklich, was ein Himmel ist? Weiß es, dass Wolken den Himmel verdecken können oder dass es nachts dunkel wird? Oder hat es sich nur gemerkt, dass „blau" oft nach „Himmel" kommt?

Diese Frage steht im Mittelpunkt einer neuen Studie von Forschern der RWTH Aachen und der Universitat Pompeu Fabra. Sie wollten herausfinden: Kann eine KI, die einfach nur das nächste Wort (oder hier: die nächste Aktion) vorhersagt, tatsächlich ein echtes „Welt-Modell" lernen? Ein Modell, das ihr erlaubt, Pläne zu schmieden und Probleme zu lösen, wie ein Mensch es tut?

Um das zu testen, haben sie eine Art „Spielwiese" gebaut, die auf einer alten, aber sehr strengen Logik namens STRIPS basiert. Stellen Sie sich STRIPS wie ein riesiges, logisches Puzzle vor, bei dem jede Aktion (z. B. „Block A auf Block B legen") klare Regeln hat: Was muss vorher passieren, und was ändert sich danach?

Die beiden Helden des Experiments

Die Forscher haben zwei verschiedene Arten von KI-Architekturen (den „Gehirnen" der Modelle) getestet, um zu sehen, wer am besten lernt, wie diese Welt funktioniert.

1. Der „STRIPS-Transformer" (Der strukturierte Architekt)

Stellen Sie sich diesen wie einen Bauarbeiter mit einem perfekten Bauplan vor.

  • Wie er funktioniert: Ihm wurde von Anfang an gesagt: „Hey, du musst genau so denken wie ein STRIPS-Modell. Jede Aktion hat eine Checkliste (Voraussetzungen) und eine Liste der Veränderungen."
  • Das Problem: Obwohl er theoretisch der klügste sein sollte, war er schwer zu trainieren. Es war, als würde man versuchen, einem Bauarbeiter einen extrem komplexen Plan zu geben, den er nur mit Mühe versteht. Er brauchte riesige Mengen an Daten, um nicht zu verwirrt zu sein, und machte oft Fehler, wenn die Aufgaben zu lang wurden. Er war zu starr.

2. Der „Stick-Breaking Transformer" (Der flexible Entdecker)

Dieser ist wie ein neugieriger Abenteurer, der keine Baupläne hat, sondern einfach nur beobachtet.

  • Wie er funktioniert: Er hat keine vorgefertigten Regeln. Er schaut sich nur an, welche Aktionen in welcher Reihenfolge funktionieren und welche nicht. Der Trick hier ist eine spezielle Technik namens „Stick-Breaking Attention".
  • Die Metapher: Stellen Sie sich vor, Sie haben einen Stock (einen „Stick"). Wenn Sie eine neue Information bekommen, brechen Sie ein Stück vom Stock ab, das der aktuellen Situation entspricht, und werfen den Rest weg. So konzentriert sich die KI immer genau auf das wichtigste, letzte Ereignis, das eine Regel verändert hat.
  • Das Ergebnis: Dieser „Abenteurer" war viel besser! Er lernte schneller, machte weniger Fehler und konnte sich auf sehr lange, komplexe Szenarien einstellen, ohne den Faden zu verlieren.

Das große Geheimnis: Wie wird aus Vorhersage ein Plan?

Das Spannendste an der Studie ist, was die Forscher mit diesen trainierten Modellen gemacht haben.

Normalerweise sagen KIs nur: „Das nächste Wort ist X." Aber hier haben die Forscher die KI dazu gebracht, nicht nur das nächste Wort zu sagen, sondern die Regeln der Welt zu extrahieren.

Stellen Sie sich vor, die KI hat tausende von Videos von einem Roboter gesehen, der Blöcke stapelt. Sie hat gelernt, welche Bewegungen funktionieren und welche nicht.

  1. Die Extraktion: Die Forscher haben die KI gefragt: „Okay, du hast das alles gesehen. Kannst du mir jetzt die Regeln aufschreiben?"
  2. Das Ergebnis: Die KI hat tatsächlich eine saubere, symbolische Liste von Regeln erstellt (z. B. „Man kann Block A nur auf B legen, wenn B frei ist").
  3. Die Prüfung: Diese Regeln gaben sie dann einem klassischen Planungs-Programm (einem „Super-Logiker"), das noch nie diese Blöcke gesehen hatte. Und guess what? Der Super-Logiker konnte damit perfekte Pläne für völlig neue Situationen erstellen!

Warum ist das wichtig?

Stellen Sie sich vor, Sie lernen Autofahren, indem Sie nur Videos von anderen Fahrern ansehen.

  • Ein schlechtes Modell würde sich merken: „Wenn ich das Lenkrad links drehe, passiert oft etwas." Aber wenn die Straße nass ist oder ein neues Auto da steht, versagt es.
  • Ein gutes Welt-Modell (wie das in dieser Studie) versteht: „Das Auto rutscht auf nasser Straße, weil die Reibung fehlt."

Die Studie zeigt, dass moderne KI-Architekturen (Transformers) tatsächlich in der Lage sind, diese tiefen, logischen Zusammenhänge zu lernen, wenn man sie richtig trainiert. Besonders der „Stick-Breaking"-Ansatz hat gezeigt, dass man nicht unbedingt starre, symbolische Regeln in die KI einbauen muss, damit sie sie lernt. Sie kann sie sich selbst „herausfinden", indem sie einfach nur die Konsequenzen von Aktionen beobachtet.

Fazit in einem Satz

Die Forscher haben bewiesen, dass KI-Modelle, die nur das nächste Wort vorhersagen, tatsächlich ein tiefes Verständnis der Welt entwickeln können – ähnlich wie ein Kind, das durch Beobachten lernt, wie die Welt funktioniert, und nicht nur durch Auswendiglernen von Regeln. Und das Beste: Dieses Verständnis reicht aus, um komplexe Pläne für Situationen zu erstellen, die die KI noch nie gesehen hat.