Reward Is Enough: LLMs Are In-Context Reinforcement Learners

Each language version is independently generated for its own context, not a direct translation.

Das große Geheimnis: LLMs können aus Fehlern lernen (ohne neu trainiert zu werden)

Stell dir vor, du hast einen extrem klugen, aber etwas sturen Bibliothekar (das ist das Large Language Model oder LLM). Dieser Bibliothekar hat Millionen von Büchern gelesen und weiß fast alles. Aber wenn du ihn vor ein neues, kniffliges Problem stellst, das er noch nie gesehen hat, rät er oft nur einmal und gibt dann auf. Er lernt nicht aus seiner eigenen Erfahrung, weil er "starr" programmiert ist.

Die Autoren dieses Papers haben etwas Überraschendes entdeckt: Dieser Bibliothekar kann plötzlich lernen, wie ein echter Mensch, wenn man ihm die richtigen Hinweise gibt. Und das passiert nicht durch langweiliges Nachschulen (Training), sondern direkt im Moment der Antwort (Inferenz).

Sie nennen das "In-Context Reinforcement Learning" (ICRL). Klingt kompliziert? Machen wir es uns mit einer Geschichte klar.

Die Analogie: Der Schatzsucher und der Goldzähler

Stell dir vor, du bist ein Schatzsucher in einem riesigen, unbekannten Wald (das ist die Aufgabe, z. B. ein Mathe-Rätsel oder ein kreativer Text).

Der alte Weg (Beste Methoden):
Früher haben Forscher versucht, dem Schatzsucher zu helfen, indem sie ihm sagten: "Hey, dein Text war schlecht, schreib ihn nochmal anders!" (Das nennt man Self-Refine oder Reflexion). Das Problem: Der Schatzsucher halluziniert oft. Er denkt, er habe einen Fehler gemacht, korrigiert ihn aber falsch und wird am Ende nur verwirrter. Es ist, als würde ein Betrunkener einem anderen Betrunkenen erklären, wie man geradeaus läuft.
Der neue Weg (ICRL - Die Methode der Autoren):
Die Autoren sagen dem Schatzsucher: "Ich gebe dir keine langen Erklärungen. Ich gebe dir nur eine Zahl."
- Runde 1: Der Schatzsucher läuft los und findet einen Weg. Er kommt an einem Fluss an. Du gibst ihm eine Zahl (den "Reward"): "Du hast 3 Punkte bekommen, weil du den Fluss überquert hast, aber du bist nass geworden."
- Runde 2: Der Schatzsucher sieht sich die Geschichte an: "Ah, ich habe 3 Punkte bekommen. Beim nächsten Mal versuche ich, eine Brücke zu bauen." Er läuft wieder los.
- Runde 3: Er baut eine Brücke. Du gibst ihm 10 Punkte. "Super! Das war effizient."
Der Schatzsucher merkt schnell: "Okay, Brücken bauen bringt mehr Punkte als nass werden." Er passt sein Verhalten an, ohne dass du ihm jemals gesagt hast, wie man eine Brücke baut. Er hat nur die Zahl gesehen und daraus gelernt.

Das ist das Geniale an dieser Methode: Das LLM lernt aus seinen eigenen Versuchen, indem es nur Zahlen (Belohnungen) sieht, keine langen Textkritiken.

Was haben die Autoren konkret gemacht?

Sie haben ein einfaches Spiel entwickelt, das sie "ICRL-Prompting" nennen. So funktioniert es im Alltag:

Die Aufgabe: Das LLM bekommt ein Problem (z. B. "Löse dieses Mathe-Rätsel" oder "Schreibe eine Geschichte").
Der Versuch: Das LLM gibt eine Antwort.
Die Belohnung: Ein System (oder sogar das LLM selbst) gibt eine Zahl ab.
- Bei Mathe: "Ist die Antwort 24? Ja = 10 Punkte, Nein = 0 Punkte."
- Bei Texten: "Ist die Geschichte logisch? 1 bis 10 Punkte."
Der Kreislauf: Das LLM sieht sich nun seine gesamte Geschichte an: "Ich habe Versuch 1 gemacht (3 Punkte), Versuch 2 (7 Punkte), Versuch 3 (10 Punkte)."
Der Lerneffekt: Im nächsten Versuch versucht das LLM, die Strategie zu wiederholen, die die hohen Zahlen gebracht hat, und vermeidet die, die die niedrigen Zahlen brachten.

Warum ist das so wichtig?

Stell dir vor, du musst einen neuen Weg durch eine Stadt finden, die du noch nie gesehen hast.

Früher: Du hast eine Karte (das Training) und versuchst, sie zu lesen. Wenn die Karte alt ist, verirrst du dich.
Mit ICRL: Du hast keine perfekte Karte, aber du hast einen Schrittzähler, der dir sagt, wie gut du dich bewegst. Du läufst ein bisschen, siehst den Zähler, läufst anders, siehst den Zähler. Nach ein paar Versuchen hast du den perfekten Weg gefunden, ohne dass jemand dir die Karte neu gezeichnet hat.

Die Autoren haben das an vier verschiedenen Dingen getestet:

Mathe-Rätsel (Game of 24): Das LLM lernte, Zahlenkombinationen zu finden, die 24 ergeben.
Kreatives Schreiben: Es lernte, zusammenhängende Geschichten zu schreiben.
Wissenschaftsexperimente: Es lernte, in einer simulierten Welt Objekte zu finden.
Olympiade-Mathe: Selbst bei sehr schweren Aufgaben wurde es besser.

Das Ergebnis

Das LLM wurde besser, je mehr Versuche es machte. Es war wie ein Sportler, der nach jedem Lauf seinen Puls sieht und beim nächsten Lauf schneller wird.

Bei den Mathe-Rätseln stieg der Erfolg von ca. 50 % auf 90 %.
Es war deutlich besser als alle bisherigen Methoden, die nur auf Text-Korrekturen basierten.

Die große Erkenntnis

Das Papier sagt im Grunde: "Belohnung ist genug."
Wir müssen dem KI-Modell nicht sagen, wie es etwas tun soll. Wir müssen ihm nur sagen, ob es etwas gut gemacht hat (durch eine Zahl). Wenn wir ihm genug Zeit und Geduld geben, seine eigenen Versuche und die dazugehörigen Zahlen zu lesen, lernt es von selbst, wie man das Problem löst.

Es ist, als würdest du einem Kind sagen: "Versuch es einfach mal. Wenn du es richtig machst, kriegst du einen Stern." Und das Kind lernt durch das Sammeln der Sterne, wie man die Aufgabe löst, ohne dass du ihm die Lösung vorrechnen musst.

Das ist ein riesiger Schritt hin zu KI-Agenten, die in der echten Welt lernen können, sich anzupassen und besser zu werden, ohne dass wir sie jedes Mal neu programmieren müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) müssen in der Lage sein, sich während der Inferenzzeit (Testzeit) zu verbessern, um als effektive Agenten auf neuen Aufgaben zu agieren. Bisherige Ansätze zur „Test-Time Scaling" konzentrierten sich stark auf Suchverfahren (z. B. Best-of-N, Tree of Thoughts, Monte Carlo Tree Search) oder überwachtes Lernen im Kontext (In-Context Learning, ICL), das jedoch Expertendemonstrationen als Ground-Truth-Labels benötigt.

Das zentrale Problem ist die Lücke beim Lernen aus eigener Erfahrung während der Inferenz. Reinforcement Learning (RL) ist zwar der Goldstandard für autonomes Lernen, wird aber typischerweise nur während des Trainings oder in simulierten Umgebungen eingesetzt. Die Frage, ob RL-Fähigkeiten als emergentes Phänomen während der Inferenz von LLMs auftreten können, ohne dass die Modellparameter aktualisiert werden, bleibt offen. Herkömmliche Selbstkorrektur-Methoden (wie Self-Refine oder Reflexion) nutzen oft textuelle Rückmeldungen, die zu Halluzinationen führen können, und nutzen nicht die volle Kraft skalierter numerischer Belohnungssignale.

2. Methodik: ICRL Prompting

Die Autoren stellen ICRL Prompting (In-Context Reinforcement Learning Prompting) vor, einen minimalen Multi-Round-Prompting-Rahmen, der LLMs anleitet, Reinforcement Learning während der Inferenz durchzuführen.

Prinzip: Das LLM fungiert als Policy ( $\pi_\theta$ ). Nach jeder Antwort erhält das Modell ein numerisches skalares Feedback (Reward $R$ ).
Kontextaufbau: In jeder Runde $k+1$ wird der Prompt $S_0$ neu konstruiert, indem alle vorherigen Versuche (State-Aktion-Paare) zusammen mit ihren zugehörigen Belohnungen in den Kontext eingefügt werden.
Instruktionen ( $s_{ICRL}$ ): Um das Lernen zu steuern, werden spezifische Instruktionen hinzugefügt:
- Exploration: Das Modell soll eine Antwort generieren, die sich deutlich von vorherigen unterscheidet.
- Exploitation: Das Modell soll basierend auf den bisherigen Ergebnissen die beste Antwort verfeinern.
- Autonom: Das Modell entscheidet selbst, ob es explorieren oder exploitieren soll.
Minimalismus: Der Ansatz verzichtet bewusst auf externe Module, textuelle Gradienten oder komplexe Heuristiken. Die einzige Supervision ist der skalare Reward. Dies testet die Hypothese „Reward is Enough" (Silver et al., 2021).
Reward-Quellen: Die Belohnungen können regelbasiert, von einem separaten Modell oder vom selben LLM (Self-Evaluation) generiert werden.

3. Schlüsselbeiträge

Einführung des ICRL-Prompting-Frameworks: Ein minimalistischer Ansatz, der LLMs ermöglicht, durch reine Skalierung des Kontextes (State-Action-Reward-Tupel) selbstständig zu lernen, ohne Parameter-Updates.
Nachweis der emergenten RL-Fähigkeit: Die Autoren liefern starke Evidenz, dass LLMs während der Inferenz RL-Verhalten zeigen. Dazu gehören:
- Maximierung des skalaren Rewards über die Zeit.
- Beobachtung des Trade-offs zwischen Exploration und Exploitation.
- Leistungssteigerung mit wachsendem Kontext und Leistungsabfall bei fehlendem Reward oder kurzem Kontext.
- Dies wird als „Duck-Test" für RL im Inferenzprozess interpretiert.
Überlegene Performance: ICRL übertrifft etablierte Baselines wie Self-Refine und Reflexion signifikant auf diversen Benchmarks, selbst wenn der Reward vom selben LLM generiert wird.

4. Ergebnisse und Evaluation

Die Methode wurde auf vier verschiedenen Benchmarks evaluiert:

Game of 24: Ein mathematisches Rätsel. ICRL erreichte eine Erfolgsrate von 90% (vs. 49% bei Best-of-N und 47% bei Self-Refine). Das Modell lernte, Fehler in vorherigen Schritten zu korrigieren, basierend auf den skalaren Feedbacks pro Schritt.
Creative Writing: Bewertung der Kohärenz. ICRL erzielte eine Win-Rate von 59,48% gegen Reflexion und 93,81% gegen Best-of-N. Im Gegensatz zu Self-Refine, das nach einer gewissen Anzahl von Iterationen stagnierte oder sank, verbesserte sich ICRL kontinuierlich.
ScienceWorld: Ein interaktives Text-Adventure mit spärlichen Belohnungen. ICRL zeigte eine Steigerung der durchschnittlichen Return-Werte um ca. 20% gegenüber Baselines.
Olympiade-Mathematik (AIME & HMMT): Auf Open-Source-Modellen (Qwen3, Llama-4, Phi-4) erreichte ICRL signifikante Verbesserungen (bis zu 10–20 Punkte) gegenüber dem Basis-Modell und anderen Methoden.

Mechanistische Analyse:
Eine Analyse der Aufmerksamkeitsköpfe (Attention Heads) in Qwen3-32B zeigte, dass etwa 29,1% der Köpfe statistisch signifikant mit den Reward-Signalen korrelieren. Einige Köpfe fokussieren sich auf erfolgreiche (hohe Reward) Beispiele, andere auf Fehler (niedrige Reward), was klassischem RL-Verhalten entspricht.

Test-Time Learning vs. Search:
In einem Experiment zur Generierung von Abstracts für neuere arXiv-Papiere (die im Trainingsdaten des Modells nicht vorhanden waren) stagnierten Suchmethoden (Best-of-N) und Reflexion schnell. ICRL verbesserte sich über 200 Iterationen kontinuierlich, was beweist, dass das Modell tatsächlich aus dem externen Reward lernt und nicht nur aus parametrischem Wissen sucht.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass Reinforcement Learning eine emergente Fähigkeit von LLMs während der Inferenzzeit ist. Dies hat tiefgreifende Implikationen:

Paradigmenwechsel: Es eröffnet einen neuen Weg für Test-Time Scaling, der nicht auf teurem Nachtraining oder komplexen Suchalgorithmen basiert, sondern auf der Nutzung des Kontextspeichers und skalaren Belohnungen.
Autonome Agenten: LLMs können in offenen Umgebungen lernen, sich anzupassen und zu verbessern, indem sie aus ihren eigenen Fehlern und Erfolgen lernen, ohne menschliches Eingreifen oder retrainierte Modelle.
Effizienz: Der Ansatz ist rechnerisch effizienter als viele Suchverfahren und funktioniert auch mit Open-Source-Modellen.

Zukünftige Arbeiten könnten untersuchen, wie Trainingszeit-Interventionen diese in-Kontext-RL-Fähigkeiten weiter stärken können, um noch leistungsfähigere autonome Agenten zu schaffen.