Localizing and Correcting Errors for LLM-based Planners

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem sehr klugen, aber manchmal etwas chaotischen Assistenten eine Aufgabe: Er soll durch ein Labyrinth laufen und dabei die Wände beachten.

Das Problem ist: Dieser Assistent (ein sogenanntes Large Language Model oder LLM) ist extrem gut darin, Mathematik zu lösen oder Code zu schreiben. Aber wenn es darum geht, logische Pläne zu erstellen – wie „Geh nicht durch die Wand" oder „Heb den Kasten nicht auf, wenn deine Hand schon voll ist" – dann stolpert er oft. Er plant einen Weg, der physikalisch unmöglich ist, als würde er durch Mauern laufen oder Dinge tun, die gegen die Regeln verstoßen.

Die Forscher in diesem Papier haben eine Lösung gefunden, die sie L-ICL nennen. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der Assistent lernt aus ganzen Geschichten, nicht aus Fehlern

Bisher haben Leute versucht, dem Assistenten zu helfen, indem sie ihm ganze Lösungswege als Beispiel zeigten.

Die alte Methode (wie ein Kochbuch): „Hier ist ein Rezept für einen perfekten Kuchen. Schau dir an, wie ich ihn backe."
Das Problem: Der Assistent sieht den perfekten Kuchen am Ende, aber er versteht nicht genau, warum er den Ofen bei 180 Grad und nicht bei 200 Grad lassen muss. Wenn er dann selbst backt, stellt er den Ofen auf 200 Grad und verbrennt den Kuchen. Er hat die Regel nicht wirklich verstanden, nur das Ergebnis gesehen.

2. Die Lösung: L-ICL ist wie ein „Fehler-Feedback-System"

Die Forscher sagen: „Lass uns nicht ganze Geschichten zeigen. Zeig uns genau den Moment, in dem er einen Fehler macht, und korrigiere nur diesen einen Schritt."

Stellen Sie sich L-ICL wie einen strengen, aber hilfsbereiten Trainer vor, der neben dem Assistenten steht:

Der Versuch: Der Assistent versucht, einen Plan zu machen.
Der Fehler: Er sagt: „Ich gehe jetzt nach Osten."
Die Korrektur (Der Clou): Der Trainer schreit nicht: „Nein, das ganze Rezept ist falsch!" Sondern er sagt: „Moment! Schau her: Wenn du an Position (3,4) nach Osten gehst, triffst du auf eine Wand. Hier ist die korrekte Regel: Von (3,4) aus kannst du nur nach Norden oder Süden gehen."
Das Lernen: Der Assistent merkt sich diese eine kleine Regel für diesen einen Fall.

3. Warum ist das so effektiv? (Die Analogie des „Einzel-Tests")

In der Softwareentwicklung gibt es etwas, das man Unit Testing (Einzeltests) nennt. Man testet nicht das ganze Programm auf einmal, sondern prüft jede kleine Funktion einzeln, ob sie funktioniert.

Die alten Methoden waren wie ein End-to-End-Test: „Das Programm läuft am Ende durch." (Aber wo genau hat es geklemmt? Weiß man nicht.)
L-ICL ist wie Unit Testing: Es prüft jeden einzelnen Schritt. „Funktioniert der Befehl 'nach Osten gehen' an dieser Stelle?" Wenn nein -> sofort korrigieren.

Das ist viel effizienter. Der Assistent braucht viel weniger Informationen, um zu lernen. In den Experimenten hat L-ICL mit nur 2.000 Zeichen an Text (ein paar kleine Korrekturbeispiele) besser funktioniert als andere Methoden, die 20.000 Zeichen (ganze Lösungswege) brauchten.

4. Was passiert am Ende?

Nachdem der Assistent so 30 bis 60 dieser kleinen Korrekturen gesehen hat, passiert Magie:

Er lernt nicht nur, dass er nicht durch Wände laufen darf.
Er lernt das Prinzip: „Wenn ich an einer Wand stehe, darf ich nicht in die Wand gehen."
Er kann dieses Wissen dann auf völlig neue Labyrinthe übertragen, die er noch nie gesehen hat.

Zusammenfassung in einem Satz

Statt dem KI-Assistenten eine ganze Geschichte vorzulesen, damit er sie nachahmt, zeigen wir ihm genau die Stelle, an der er stolpert, und geben ihm eine winzige, klare Regel, wie er es richtig macht. So wird er aus einem chaotischen Träumer zu einem zuverlässigen Planer, der die Regeln der Welt (wie Wände und Schwerkraft) endlich ernst nimmt.

Das Ergebnis: Auf einem einfachen 8x8-Raster (wie ein kleines Schachbrett) schaffte es der Assistent von 0 % Erfolg (ohne Hilfe) auf 89 % Erfolg (mit nur 60 kleinen Korrekturen). Das ist ein riesiger Sprung!

Localizing and Correcting Errors for LLM-based Planners

1. Das Problem: Der Assistent lernt aus ganzen Geschichten, nicht aus Fehlern

2. Die Lösung: L-ICL ist wie ein „Fehler-Feedback-System"

3. Warum ist das so effektiv? (Die Analogie des „Einzel-Tests")

4. Was passiert am Ende?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Localized In-Context Learning (L-ICL)

Kernkonzept

Der Prozess (Iterativ)

Vorteile gegenüber anderen Methoden

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Localizing and Correcting Errors for LLM-based Planners

1. Das Problem: Der Assistent lernt aus ganzen Geschichten, nicht aus Fehlern

2. Die Lösung: L-ICL ist wie ein „Fehler-Feedback-System"

3. Warum ist das so effektiv? (Die Analogie des „Einzel-Tests")

4. Was passiert am Ende?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Localized In-Context Learning (L-ICL)

Kernkonzept

Der Prozess (Iterativ)

Vorteile gegenüber anderen Methoden

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning