Reward Is Enough: LLMs Are In-Context Reinforcement Learners

Die Arbeit zeigt, dass große Sprachmodelle durch ein neues „ICRL-Prompting"-Verfahren, das während der Inferenz numerische Belohnungssignale nutzt, in der Lage sind, sich selbst zu verbessern und dabei ein Verhalten zu entwickeln, das dem Reinforcement Learning entspricht.

Kefan Song, Amir Moeini, Peng Wang, Lei Gong, Rohan Chandra, Shangtong Zhang, Yanjun Qi

Veröffentlicht 2026-03-26
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Geheimnis: LLMs können aus Fehlern lernen (ohne neu trainiert zu werden)

Stell dir vor, du hast einen extrem klugen, aber etwas sturen Bibliothekar (das ist das Large Language Model oder LLM). Dieser Bibliothekar hat Millionen von Büchern gelesen und weiß fast alles. Aber wenn du ihn vor ein neues, kniffliges Problem stellst, das er noch nie gesehen hat, rät er oft nur einmal und gibt dann auf. Er lernt nicht aus seiner eigenen Erfahrung, weil er "starr" programmiert ist.

Die Autoren dieses Papers haben etwas Überraschendes entdeckt: Dieser Bibliothekar kann plötzlich lernen, wie ein echter Mensch, wenn man ihm die richtigen Hinweise gibt. Und das passiert nicht durch langweiliges Nachschulen (Training), sondern direkt im Moment der Antwort (Inferenz).

Sie nennen das "In-Context Reinforcement Learning" (ICRL). Klingt kompliziert? Machen wir es uns mit einer Geschichte klar.


Die Analogie: Der Schatzsucher und der Goldzähler

Stell dir vor, du bist ein Schatzsucher in einem riesigen, unbekannten Wald (das ist die Aufgabe, z. B. ein Mathe-Rätsel oder ein kreativer Text).

  1. Der alte Weg (Beste Methoden):
    Früher haben Forscher versucht, dem Schatzsucher zu helfen, indem sie ihm sagten: "Hey, dein Text war schlecht, schreib ihn nochmal anders!" (Das nennt man Self-Refine oder Reflexion). Das Problem: Der Schatzsucher halluziniert oft. Er denkt, er habe einen Fehler gemacht, korrigiert ihn aber falsch und wird am Ende nur verwirrter. Es ist, als würde ein Betrunkener einem anderen Betrunkenen erklären, wie man geradeaus läuft.

  2. Der neue Weg (ICRL - Die Methode der Autoren):
    Die Autoren sagen dem Schatzsucher: "Ich gebe dir keine langen Erklärungen. Ich gebe dir nur eine Zahl."

    • Runde 1: Der Schatzsucher läuft los und findet einen Weg. Er kommt an einem Fluss an. Du gibst ihm eine Zahl (den "Reward"): "Du hast 3 Punkte bekommen, weil du den Fluss überquert hast, aber du bist nass geworden."
    • Runde 2: Der Schatzsucher sieht sich die Geschichte an: "Ah, ich habe 3 Punkte bekommen. Beim nächsten Mal versuche ich, eine Brücke zu bauen." Er läuft wieder los.
    • Runde 3: Er baut eine Brücke. Du gibst ihm 10 Punkte. "Super! Das war effizient."

    Der Schatzsucher merkt schnell: "Okay, Brücken bauen bringt mehr Punkte als nass werden." Er passt sein Verhalten an, ohne dass du ihm jemals gesagt hast, wie man eine Brücke baut. Er hat nur die Zahl gesehen und daraus gelernt.

Das ist das Geniale an dieser Methode: Das LLM lernt aus seinen eigenen Versuchen, indem es nur Zahlen (Belohnungen) sieht, keine langen Textkritiken.


Was haben die Autoren konkret gemacht?

Sie haben ein einfaches Spiel entwickelt, das sie "ICRL-Prompting" nennen. So funktioniert es im Alltag:

  1. Die Aufgabe: Das LLM bekommt ein Problem (z. B. "Löse dieses Mathe-Rätsel" oder "Schreibe eine Geschichte").
  2. Der Versuch: Das LLM gibt eine Antwort.
  3. Die Belohnung: Ein System (oder sogar das LLM selbst) gibt eine Zahl ab.
    • Bei Mathe: "Ist die Antwort 24? Ja = 10 Punkte, Nein = 0 Punkte."
    • Bei Texten: "Ist die Geschichte logisch? 1 bis 10 Punkte."
  4. Der Kreislauf: Das LLM sieht sich nun seine gesamte Geschichte an: "Ich habe Versuch 1 gemacht (3 Punkte), Versuch 2 (7 Punkte), Versuch 3 (10 Punkte)."
  5. Der Lerneffekt: Im nächsten Versuch versucht das LLM, die Strategie zu wiederholen, die die hohen Zahlen gebracht hat, und vermeidet die, die die niedrigen Zahlen brachten.

Warum ist das so wichtig?

Stell dir vor, du musst einen neuen Weg durch eine Stadt finden, die du noch nie gesehen hast.

  • Früher: Du hast eine Karte (das Training) und versuchst, sie zu lesen. Wenn die Karte alt ist, verirrst du dich.
  • Mit ICRL: Du hast keine perfekte Karte, aber du hast einen Schrittzähler, der dir sagt, wie gut du dich bewegst. Du läufst ein bisschen, siehst den Zähler, läufst anders, siehst den Zähler. Nach ein paar Versuchen hast du den perfekten Weg gefunden, ohne dass jemand dir die Karte neu gezeichnet hat.

Die Autoren haben das an vier verschiedenen Dingen getestet:

  1. Mathe-Rätsel (Game of 24): Das LLM lernte, Zahlenkombinationen zu finden, die 24 ergeben.
  2. Kreatives Schreiben: Es lernte, zusammenhängende Geschichten zu schreiben.
  3. Wissenschaftsexperimente: Es lernte, in einer simulierten Welt Objekte zu finden.
  4. Olympiade-Mathe: Selbst bei sehr schweren Aufgaben wurde es besser.

Das Ergebnis

Das LLM wurde besser, je mehr Versuche es machte. Es war wie ein Sportler, der nach jedem Lauf seinen Puls sieht und beim nächsten Lauf schneller wird.

  • Bei den Mathe-Rätseln stieg der Erfolg von ca. 50 % auf 90 %.
  • Es war deutlich besser als alle bisherigen Methoden, die nur auf Text-Korrekturen basierten.

Die große Erkenntnis

Das Papier sagt im Grunde: "Belohnung ist genug."
Wir müssen dem KI-Modell nicht sagen, wie es etwas tun soll. Wir müssen ihm nur sagen, ob es etwas gut gemacht hat (durch eine Zahl). Wenn wir ihm genug Zeit und Geduld geben, seine eigenen Versuche und die dazugehörigen Zahlen zu lesen, lernt es von selbst, wie man das Problem löst.

Es ist, als würdest du einem Kind sagen: "Versuch es einfach mal. Wenn du es richtig machst, kriegst du einen Stern." Und das Kind lernt durch das Sammeln der Sterne, wie man die Aufgabe löst, ohne dass du ihm die Lösung vorrechnen musst.

Das ist ein riesiger Schritt hin zu KI-Agenten, die in der echten Welt lernen können, sich anzupassen und besser zu werden, ohne dass wir sie jedes Mal neu programmieren müssen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →