From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers

Diese Arbeit zeigt auf, dass generische Transformer durch die Einführung von drei minimalen induktiven Biases – räumliche Glätte, Stabilität und zeitliche Lokalität – von bloßen Kurvenanpassern zu Agenten evolvieren können, die in der Lage sind, fundamentale physikalische Gesetze wie Newtonsche Kräfte zu entdecken, wodurch die Lücke zwischen hoher Vorhersagegenauigkeit und wahrem kausalem Verständnis geschlossen wird.

Ursprüngliche Autoren: Ziming Liu, Sophia Sanborn, Surya Ganguli, Andreas Tolias

Veröffentlicht 2026-02-09
📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Ziming Liu, Sophia Sanborn, Surya Ganguli, Andreas Tolias

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen superintelligenten Roboter-Schüler. Sie möchten ihm beibringen, wie Planeten um die Sonne wandern. Sie geben ihm ein riesiges Geschichtsbuch darüber, wo die Planeten in der Vergangenheit waren, und bitten ihn zu raten, wo sie als Nächstes sein werden.

Die große Frage, die dieses Paper stellt, lautet: Kann dieser Roboter-Schüler einfach nur den Pfad auswendig lernen, oder kann er tatsächlich die physikalischen Gesetze verstehen, die die Bewegung verursachen?

Die Autoren fanden heraus, dass der Roboter ohne spezielle „Stützräder“ (die sie Inductive Biases nennen) ein brillanter Auswendiglernender, aber ein schrecklicher Physiker ist. Er lernt, den Pfad perfekt nachzuzeichnen, hat aber keine Ahnung, warum sich der Planet so bewegt. Er zeichnet die Kurve perfekt nach, weiß aber nicht, warum sie so aussam ist.

Hier ist die Geschichte, wie sie den Roboter „repariert“ haben, unterteilt in drei einfache Lektionen.

Das Problem: Der Roboter ist ein „Kurven-Anpasser“, kein „Physiker“

Stellen Sie sich das Gehirn des Roboters als eine riesige Bibliothek vor.

  • Der Kepler-Ansatz (Was der Roboter natürlich tat): Der Robot betrachtet die letzten 1.000 Punkte der Reise eines Planeten. Er sagt: „Aha! Ich sehe das Muster. Es ist eine ovale Form. Ich werde einfach weiter das Oval zeichnen.“ Es ist wie ein Kind, das ein Bild nachzeichnet. Es bekommt das Bild richtig hin, aber wenn man fragt: „Warum ist es ein Oval?“ oder „Welche Kraft zieht daran?“, hat der Roboter keine Antwort. Er kennt nur die Form.
  • Der Newton-Ansatz (Was wir wollen): Wir wollen, dass der Roboter sagt: „Die Sonne zieht den Planeten mit Gravitation an. Wenn ich die aktuelle Geschwindigkeit und Position des Planeten kenne, kann ich die Anziehungskraft berechnen und den nächsten Schritt vorhersagen.“ Das ist das Verständnis der Ursache, nicht nur der Wirkung.

Das Paper zeigt, dass Standard-KI-Modelle (Transformer) von Natur aus zu „Nachzeichnern“ (Kepler) werden und scheitern, wenn sie zu „Rechnern“ (Newton) werden sollen. Um dies zu beheben, fügten die Autoren drei spezifische „Stützräder“ hinzu.


Lektion 1: Das Problem der „pixeligen Karte“ (Räumliche Glätte)

Die Analogie: Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, durch eine Stadt zu navigieren.

  • Der Fehler: Sie geben dem Roboter eine Karte, auf der jede einzelne Straßenecke eine völlig andere, zufällige Farbe hat. „Rot“ ist die Ecke von 1. und Main. „Blau“ ist die Ecke von 1. und 2. Obwohl diese Ecken direkt nebeneinander liegen, sieht der Roboter sie als völlig unzusammenhängend an. Er muss die Beziehung zwischen „Rot“ und „Blau“ jedes Mal von Grund auf neu lernen.
  • Der Fehler: Die Autoren erkannten, dass sie die natürliche Glätte des Raums unterbrochen hatten, als sie die Position des Planeten in winzige „Bins“ (wie Pixel) zerlegten.
  • Die Lösung: Sie machten die „Bins“ größer (weniger Farben) oder hörten ganz damit auf, Bins zu verwenden, und gaben dem Roboter stattdessen die exakten Koordinaten (wie ein GPS). Dies ermöglichte es dem Roboter, zu sehen, dass „Punkt A“ direkt neben „Punkt B“ liegt, was ihm half, eine echte mentale Landkarte des Raums aufzubauen, anstatt ein verwirrendes Durcheinander aus zufälligen Codes.

Lektion 2: Das „Domino-Effekt“-Problem (Räumliche Stabilität)

Die Analogie: Stellen Sie sich das Spiel „Stille Post“ vor, bei dem man die nächste Person eine Zahl zuflüstert.

  • Der Fehler: Wenn die erste Person „50,1“ flüstert und die zweite Person „50,2“ hört, hört die dritte Person vielleicht „50,5“, und wenn es am Ende ankommt, ist die Zahl „100“. In der Physik gilt: Wenn der Roboter einen winzigen Fehler bei der Vorhersage der Planetenposition macht, wird dieser Fehler mit jedem Schritt größer, bis der Planet ins tiefe Weltall fliegt oder in die Sonne stürzt.
  • Der Fehler: Die Autoren erkannten, dass das Standard-KI-Training zu „perfekt“ ist. Es lernt nur aus perfekten Vergangenheitsdaten.
  • Die Lösung: Sie begannen, die Trainingsdaten des Roboters absichtlich zu „beschädigen“. Sie fügten ein wenig statisches Rauschen (wie das Rauschen im Radio) zu der Historie hinzu, die der Roboter las. Dies zwang den Roboter dazu, zu lernen, wie er aus kleinen Fehlern wieder aufholt, was ihn robust genug machte, die Zukunft vorherzusagen, ohne dass sich die Fehler aufbauen.

Lektion 3: Das „Langzeitgedächtnis“ vs. „Kurzzeitgedächtnis“-Problem (Zeitliche Lokalität)

Die Analogie: Dies ist der wichtigste Teil.

  • Das Langzeitgedächtnis (Kepler): Stellen Sie sich einen Roboter vor, der sich an alles erinnert, was in der letzten Stunde passiert ist. Wenn er versucht zu erraten, was als Nächstes passiert, betrachtet er die gesamte Stunde der Geschichte, um eine riesige Kurve zu zeichnen. Es ist, als würde man die gesamte Achterbahnstrecke betrachten, um zu erraten, wohin die Wagen als Nächstes fährt. Es funktioniert für die Kurve, aber es versteht nicht die Physik.
  • Das Kurzzeitgedächtnis (Newton): Stellen Sie sich nun einen Roboter vor, der nur erlaubt ist, die letzten zwei Sekunden zu speichern. Er kann die ganze Strecke nicht sehen. Er muss schauen, wo der Wagen jetzt gerade ist und wie schnell er jetzt gerade fährt, um zu wissen, wohin er als Nächstes fährt.
  • Die Lösung: Die Autoren zwangen den Roboter zu einem Kurzzeitgedächtnis. Sie sagten ihm: „Du darfst nur in die unmittelbare Vergangenheit schauen.“
  • Das Ergebnis: Da der Roboter sich nicht mehr auf die „große Übersicht“ der Kurve verlassen konnte, war er gezwungen, die Regeln des Spiels herauszufinden. Er musste die unsichtbare „Anziehungskraft“ (Gravitation) berechnen, die im Moment auf den Planeten wirkt, um den nächsten Schritt vorherzusagen. Plötzlich hörte der Roboter auf, Ellipsen zu zeichnen, und begann, Kräfte zu berechnen. Er wurde zum Physiker.

Die große Erkenntnis

Das Paper kommt zu dem Schluss, dass die Art und Weise, wie man das Gehirn der KI entwirft, bestimmt, was sie lernt.

  • Wenn man sie alles sehen lässt und eine pixelige Karte verwendet, wird sie zu einem Kurven-Anpasser (Kepler). Sie zeichnet schöne Bilder, versteht aber das Universum nicht.
  • Wenn man ihr eine glatte Karte gibt, ihr beibringt, mit Fehlern umzugehen, und sie zu einem kurzen Gedächtnis zwingt, wird sie zu einem Physiker (Newton). Sie entdeckt die Gesetze der Gravitation von selbst.

Die Autoren zeigen, dass man die Gesetze der Physik nicht in die KI programmieren muss. Man muss ihr nur die richtigen „Inductive Biases“ (die richtigen Trainingsbeschränkungen) geben, und sie wird die Gesetze selbst entdecken.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →