In-Context Reinforcement Learning for Tool Use in Large Language Models

Die Arbeit stellt In-Context Reinforcement Learning (ICRL) vor, einen reinen Reinforcement-Learning-Ansatz, der durch den Einsatz und die schrittweise Reduzierung von Few-Shot-Beispielen während des Rollouts das teure Supervised Fine-Tuning überflüssig macht und Large Language Models effizient zum Erlernen des Werkzeuggebrauchs befähigt.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen Assistenten (ein großes Sprachmodell), der alles über Geschichte, Wissenschaft und Mathematik weiß, was er in seiner Schulzeit gelernt hat. Aber er hat ein großes Problem: Er kann nicht googeln, er kann keine Taschenrechner-Apps öffnen und er weiß nichts über Nachrichten von heute. Wenn du ihn nach etwas Fragst, das er nicht auswendig kennt, erfindet er oft einfach etwas, weil er sich zu sehr auf sein eigenes Gedächtnis verlässt.

Um dieses Problem zu lösen, wollen wir ihm beibringen, Werkzeuge zu benutzen – wie eine Suchmaschine oder einen Python-Code-Interpreter.

Das ist aber schwierig. Normalerweise muss man einem Assistenten erst eine riesige Menge an Beispielen zeigen (eine Art „Schulbuch" mit Lösungen), damit er versteht, wie man diese Werkzeuge benutzt. Das ist teuer und aufwendig.

Die neue Idee: ICRL (In-Context Reinforcement Learning)

Die Autoren dieses Papers haben eine clevere Methode namens ICRL entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Der alte Weg: Der strengen Lehrer

Früher hat man dem Assistenten erst ein dickes Buch mit tausenden Beispielen gegeben („Schulung" oder SFT), damit er lernt, wie man eine Suchanfrage stellt. Erst danach hat man ihn trainiert, selbstständig zu üben.

  • Nachteil: Man braucht riesige Mengen an teuren Beispielen, die jemand von Hand geschrieben hat.

2. Der ICRL-Weg: Der „Lehrling mit Schritt-für-Schritt-Anleitung"

ICRL spart sich das dicke Buch. Stattdessen nutzt es einen cleveren Trick während des Trainings:

  • Der Anfang (Die Anleitung): Stell dir vor, du bringst einem Kind das Kochen bei. Am Anfang legst du ihm ein Rezept vor, das genau zeigt: „Nimm erst den Topf, dann das Wasser, dann das Feuer." Das Kind liest das Rezept (die Beispiele im Prompt) und versucht dann, es nachzumachen.
    • Im Computer heißt das: Dem Modell werden am Anfang des Trainings ein paar Beispiele gezeigt, wie man eine Suchanfrage stellt und wie man die Antwort formatiert.
  • Das Training (Belohnung statt Strafe): Das Modell versucht, die Aufgabe zu lösen. Wenn es die richtige Antwort findet, bekommt es einen virtuellen „Punkt" (Belohnung). Wenn es die falsche Antwort gibt oder den Topf vergisst, bekommt es keinen Punkt.
  • Der Clou (Das Rezept wird langsam weggenommen): Das ist der wichtigste Teil.
    • In Runde 1 hat das Modell 3 Beispiele vor sich.
    • In Runde 2 hat es nur noch 2 Beispiele.
    • In Runde 3 hat es nur noch 1 Beispiel.
    • Am Ende hat es gar keine Beispiele mehr.
    • Die Analogie: Stell dir vor, du hilfst einem Schüler beim Lösen einer Matheaufgabe. Am Anfang zeigst du ihm die Lösung für eine ähnliche Aufgabe. Nach ein paar Tagen zeigst du ihm nur noch einen Teil der Lösung. Nach einer Woche sagst du: „Versuch es mal allein!" Der Schüler hat sich die Strategie durch das Beobachten und Üben so sehr eingeprägt, dass er sie jetzt aus dem Kopf anwenden kann, ohne dass jemand ihm ständig auf die Schulter klopft.

Was bringt das?

  1. Es ist billiger: Man braucht keine teuren, von Menschen geschriebenen Lösungsbücher. Das Modell lernt quasi „nebenbei" durch die wenigen Beispiele im Prompt.
  2. Es ist schlauer: Die Ergebnisse zeigen, dass Modelle, die mit ICRL trainiert wurden, bei schwierigen Fragen (die mehrere Suchschritte erfordern) viel besser abschneiden als Modelle, die nur auf das alte „Schulbuch"-Verfahren gesetzt haben. Sie können komplexe Rätsel lösen, bei denen sie erst suchen müssen, dann nachdenken, dann wieder suchen und dann die Antwort geben.
  3. Es funktioniert überall: Ob es um das Suchen im Internet geht oder um das Schreiben von Code, um Matheaufgaben zu lösen – die Methode funktioniert überall.

Zusammenfassung in einem Satz

ICRL ist wie ein genialer Trainer, der einem Roboter erst ein paar Beispiele zeigt, wie man Werkzeuge benutzt, ihn dann belohnt, wenn er es richtig macht, und die Beispiele langsam wegnimmt, bis der Roboter die Werkzeuge völlig selbstständig und perfekt bedient – alles ohne teure Schulbücher.