In-Context Reinforcement Learning for Tool Use in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen Assistenten (ein großes Sprachmodell), der alles über Geschichte, Wissenschaft und Mathematik weiß, was er in seiner Schulzeit gelernt hat. Aber er hat ein großes Problem: Er kann nicht googeln, er kann keine Taschenrechner-Apps öffnen und er weiß nichts über Nachrichten von heute. Wenn du ihn nach etwas Fragst, das er nicht auswendig kennt, erfindet er oft einfach etwas, weil er sich zu sehr auf sein eigenes Gedächtnis verlässt.

Um dieses Problem zu lösen, wollen wir ihm beibringen, Werkzeuge zu benutzen – wie eine Suchmaschine oder einen Python-Code-Interpreter.

Das ist aber schwierig. Normalerweise muss man einem Assistenten erst eine riesige Menge an Beispielen zeigen (eine Art „Schulbuch" mit Lösungen), damit er versteht, wie man diese Werkzeuge benutzt. Das ist teuer und aufwendig.

Die neue Idee: ICRL (In-Context Reinforcement Learning)

Die Autoren dieses Papers haben eine clevere Methode namens ICRL entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Der alte Weg: Der strengen Lehrer

Früher hat man dem Assistenten erst ein dickes Buch mit tausenden Beispielen gegeben („Schulung" oder SFT), damit er lernt, wie man eine Suchanfrage stellt. Erst danach hat man ihn trainiert, selbstständig zu üben.

Nachteil: Man braucht riesige Mengen an teuren Beispielen, die jemand von Hand geschrieben hat.

2. Der ICRL-Weg: Der „Lehrling mit Schritt-für-Schritt-Anleitung"

ICRL spart sich das dicke Buch. Stattdessen nutzt es einen cleveren Trick während des Trainings:

Der Anfang (Die Anleitung): Stell dir vor, du bringst einem Kind das Kochen bei. Am Anfang legst du ihm ein Rezept vor, das genau zeigt: „Nimm erst den Topf, dann das Wasser, dann das Feuer." Das Kind liest das Rezept (die Beispiele im Prompt) und versucht dann, es nachzumachen.
- Im Computer heißt das: Dem Modell werden am Anfang des Trainings ein paar Beispiele gezeigt, wie man eine Suchanfrage stellt und wie man die Antwort formatiert.
Das Training (Belohnung statt Strafe): Das Modell versucht, die Aufgabe zu lösen. Wenn es die richtige Antwort findet, bekommt es einen virtuellen „Punkt" (Belohnung). Wenn es die falsche Antwort gibt oder den Topf vergisst, bekommt es keinen Punkt.
Der Clou (Das Rezept wird langsam weggenommen): Das ist der wichtigste Teil.
- In Runde 1 hat das Modell 3 Beispiele vor sich.
- In Runde 2 hat es nur noch 2 Beispiele.
- In Runde 3 hat es nur noch 1 Beispiel.
- Am Ende hat es gar keine Beispiele mehr.
- Die Analogie: Stell dir vor, du hilfst einem Schüler beim Lösen einer Matheaufgabe. Am Anfang zeigst du ihm die Lösung für eine ähnliche Aufgabe. Nach ein paar Tagen zeigst du ihm nur noch einen Teil der Lösung. Nach einer Woche sagst du: „Versuch es mal allein!" Der Schüler hat sich die Strategie durch das Beobachten und Üben so sehr eingeprägt, dass er sie jetzt aus dem Kopf anwenden kann, ohne dass jemand ihm ständig auf die Schulter klopft.

Was bringt das?

Es ist billiger: Man braucht keine teuren, von Menschen geschriebenen Lösungsbücher. Das Modell lernt quasi „nebenbei" durch die wenigen Beispiele im Prompt.
Es ist schlauer: Die Ergebnisse zeigen, dass Modelle, die mit ICRL trainiert wurden, bei schwierigen Fragen (die mehrere Suchschritte erfordern) viel besser abschneiden als Modelle, die nur auf das alte „Schulbuch"-Verfahren gesetzt haben. Sie können komplexe Rätsel lösen, bei denen sie erst suchen müssen, dann nachdenken, dann wieder suchen und dann die Antwort geben.
Es funktioniert überall: Ob es um das Suchen im Internet geht oder um das Schreiben von Code, um Matheaufgaben zu lösen – die Methode funktioniert überall.

Zusammenfassung in einem Satz

ICRL ist wie ein genialer Trainer, der einem Roboter erst ein paar Beispiele zeigt, wie man Werkzeuge benutzt, ihn dann belohnt, wenn er es richtig macht, und die Beispiele langsam wegnimmt, bis der Roboter die Werkzeuge völlig selbstständig und perfekt bedient – alles ohne teure Schulbücher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) verfügen zwar über starke reasoning-Fähigkeiten, stoßen jedoch bei komplexen Aufgaben oft an Grenzen, da ihr internes Wissen statisch und durch das Pre-Training begrenzt ist. Um dieses Problem zu lösen, wird häufig der Einsatz externer Tools (z. B. Suchmaschinen für Fakten oder Python-Interpreter für Berechnungen) vorgeschlagen.

Das zentrale Hindernis besteht jedoch darin, Modelle effizient im Nutzen dieser Tools zu trainieren. Der aktuelle State-of-the-Art-Ansatz folgt meist einer „Cold-Start"-Pipeline:

Supervised Fine-Tuning (SFT): Das Modell wird mit großen Mengen an gelabelten Daten (Beispiel-Interaktionen mit Tools) trainiert, um eine initiale Fähigkeit zum Tool-Use zu erlernen.
Reinforcement Learning (RL): Anschließend wird das Modell durch Belohnungssignale weiter optimiert.

Nachteile des bestehenden Ansatzes:

Hoher Aufwand: Die Annotation oder Synthese hochwertiger gelabelter Daten für das SFT ist teuer und ressourcenintensiv.
Skalierbarkeit: Der Prozess ist nicht leicht auf neue Tools oder Domänen übertragbar, ohne erneut große Datenmengen zu sammeln.

2. Methodik: In-Context Reinforcement Learning (ICRL)

Die Autoren schlagen ICRL vor, ein Framework, das das SFT vollständig eliminiert und stattdessen Reinforcement Learning (RL) direkt mit Few-Shot-Prompts kombiniert.

Kernkonzept:
ICRL nutzt In-Context Learning (Few-Shot-Prompts) während der Rollout-Phase des RL-Trainings, um dem Modell den Tool-Use beizubringen, ohne dass gelabelte Trajektorien für das SFT benötigt werden.

Der Trainingsprozess (Curriculum Learning):

Initialisierung: Zu Beginn des Trainings werden dem Rollout-Prompt eine kleine Anzahl von Few-Shot-Beispielen ( $N$ ) vorangestellt. Diese Beispiele zeigen dem Modell, wie es schrittweise reasoning betreibt, Tools in einem strukturierten Format (z. B. XML-Tags wie <search>, <answer>) aufruft und Antworten generiert.
RL-Optimierung: Das Modell generiert Trajektorien basierend auf diesem Prompt, erhält Belohnungen und aktualisiert seine Policy mittels RL (hier wird GRPO – Group Relative Policy Optimization – verwendet).
Curriculum-Reduktion: Im Laufe des Trainings wird die Anzahl der Few-Shot-Beispiele im Prompt schrittweise reduziert (z. B. von 3 auf 2, dann auf 1, schließlich auf 0).
Zielzustand: Das Modell lernt, Tools autonom und ohne Prompt-Scaffolding (Zero-Shot) zu nutzen, da es die Strategien durch die vorherigen Phasen internalisiert hat.

Technische Details:

Loss Masking: Da externe Tools (z. B. Suchergebnisse) vom Modell nicht generiert werden, werden diese Tokens im Loss-Berechnungsmaskiert, damit das RL nur das Verhalten des Modells (Tool-Aufruf, Reasoning, Antwort) optimiert.
Reward-Funktion: Eine zusammengesetzte Belohnung ( $r_\phi$ $r_{ϕ}$ ) balanciert zwei Faktoren:
- Accuracy: Exakte Übereinstimmung (Exact Match) mit der Ground Truth.
- Format: Einhaltung der strukturierten Ausgabe (korrekte XML-Tags, Vorhandensein von <answer> etc.).
Stabilität: Es wird ein KL-Divergenz-Strafterm verwendet, um das Modell nahe an der Referenz-Policy zu halten.

3. Wichtige Beiträge

Eliminierung von SFT: ICRL ist das erste Framework, das Tool-Use in LLMs effektiv nur durch RL und Few-Shot-Prompts lernt, ohne aufwändige SFT-Phasen.
Daten-Effizienz: Es werden keine gelabelten Tool-Trace-Daten benötigt; das Lernen erfolgt rein durch In-Context-Beispiele und RL-Signale.
Skalierbares Curriculum: Der schrittweise Abbau der Few-Shot-Beispiele ermöglicht einen sanften Übergang von Imitation zu autonomem Handeln.
Generalisierung: Die Methode funktioniert sowohl für Web-Suche als auch für Code-Execution (Python) und ist domänenunabhängig.

4. Ergebnisse

Die Autoren führten umfangreiche Experimente auf verschiedenen Benchmarks durch (Qwen2.5-3B, 7B und 14B Modelle):

QA-Benchmarks (TriviaQA, HotpotQA, 2Wiki, Musique, Bamboogle):
- ICRL erreicht State-of-the-Art (SOTA) Ergebnisse.
- Auf dem Qwen2.5-3B-Modell erreichte ICRL eine durchschnittliche Exact-Match-Accuracy von 40,16 %, was einen Vorsprung von +8,94 Punkten gegenüber dem besten Baseline-Modell (Search-R1) darstellt.
- Auf dem Qwen2.5-7B-Modell wurde ein Durchschnitt von 49,12 % erreicht (+7,34 Punkte gegenüber ParallelSearch).
- Besonders stark waren die Verbesserungen bei Multi-Hop-Reasoning-Aufgaben (z. B. +9,7 auf Musique).
Vergleich mit SFT-basierten Methoden:
- Im direkten Vergleich mit O2-Searcher (welches SFT + RL nutzt) übertraf ICRL (ohne SFT) die Leistung auf vier von fünf Datensätzen, insbesondere bei TriviaQA (+12,9 Punkte).
Mathematisches Reasoning (Code-Execution):
- Auf den Benchmarks AIME2024 und AIME2025 (Mathematik mit Python-Code) konnte ICRL mit dem SFT+RL-Baseline ReTool mithalten bzw. auf AIME2025 sogar leicht übertreffen (+2,4%), obwohl es keine gelabelten Trainingsdaten für den Code-Use benötigte.
Ablationsstudien:
- Ein dreistufiges Curriculum (3-2-0 Beispiele) erwies sich als effektiver als ein vierstufiges (3-2-1-0), da zu frühe Reduktion der Beispiele zu vorzeitigem Stoppen und schlechterer Reasoning-Qualität führte.
- Die Leistung skalierte gut mit größeren Modellen (bis 14B Parameter).

5. Bedeutung und Fazit

ICRL stellt einen Paradigmenwechsel dar, wie LLMs für den Einsatz externer Tools trainiert werden. Indem es die Abhängigkeit von teuren, gelabelten SFT-Daten beseitigt und stattdessen die Effizienz von Few-Shot-Prompts mit der Adaptivität von RL verbindet, bietet es eine skalierbare und dateneffiziente Alternative zu traditionellen Pipelines.

Die Arbeit zeigt, dass Modelle komplexe Tool-Use-Strategien (wie mehrstufige Suchen oder Code-Execution) rein durch Reward-Driven Learning und kontextuelle Beispiele erlernen können. Dies macht die Entwicklung von Tool-augmentierten Modellen für neue Domänen deutlich zugänglicher und kostengünstiger.

In-Context Reinforcement Learning for Tool Use in Large Language Models

1. Der alte Weg: Der strengen Lehrer

2. Der ICRL-Weg: Der „Lehrling mit Schritt-für-Schritt-Anleitung"

Was bringt das?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: In-Context Reinforcement Learning (ICRL)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes