R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Das Paper stellt R1-Code-Interpreter vor, ein durch mehrstufiges Curriculum-Learning und verstärkendes Lernen optimiertes Sprachmodell, das durch autonomes Generieren von Code-Abfragen komplexe Aufgaben löst und dabei die Leistung von GPT-4o übertrifft.

Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Na Li, Chuchu Fan

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas chaotischen Assistenten (eine Künstliche Intelligenz), der dir bei komplexen Aufgaben hilft. Dieser Assistent ist brillant im Reden und Denken, aber wenn es um genaue Rechnungen, das Sortieren von Dingen oder das Lösen von kniffligen Rätseln geht, macht er oft Fehler – wie ein Mensch, der versucht, eine lange Multiplikation im Kopf zu lösen, ohne Zettel und Stift.

Das Papier „R1-Code-Interpreter" beschreibt, wie die Forscher diesen Assistenten trainiert haben, nicht nur zu reden, sondern auch zu programmieren, um Probleme zu lösen. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der Assistent ist zu stur

Früher haben Forscher versucht, den Assistenten nur durch viel Reden (Text) schlauer zu machen. Das funktioniert gut für Geschichten oder allgemeine Fragen. Aber bei Aufgaben wie „Bewege diese Blöcke so, dass sie in einer bestimmten Reihenfolge stehen" oder „Finde den schnellsten Weg durch ein Labyrinth" stolpert der Assistent oft. Er versucht, alles im Kopf zu berechnen, und verirrt sich.

Manche Modelle haben zwar einen „Code-Interpreter" (ein Werkzeug, mit dem sie Programmcode schreiben und ausführen können), aber sie wissen oft nicht, wann sie dieses Werkzeug benutzen sollen. Sie schreiben lieber lange Texte, obwohl ein kurzer Code die Lösung in Sekunden finden würde.

2. Die Lösung: Ein neuer Trainingsplan (Der „Lehrmeister")

Die Forscher haben einen neuen Ansatz entwickelt, den sie R1-Code-Interpreter nennen. Stell dir vor, sie haben den Assistenten nicht einfach nur mit Aufgaben gefüttert, sondern ihn mit einem cleveren Lehrplan trainiert.

Stell dir das Training wie das Lernen für eine große Prüfung vor:

  • Das alte Problem: Wenn man einem Schüler 144 verschiedene Aufgaben gibt (von „1+1" bis zu „Quantenphysik"), verliert er oft die Motivation. Die leichten Aufgaben sind zu einfach (er lernt nichts Neues), und die extrem schweren sind zu schwer (er gibt auf). Das Training bringt kaum Fortschritt.
  • Die neue Methode (Curriculum Learning): Die Forscher haben eine Art „Gefühl" dafür entwickelt, welche Aufgaben für den Assistenten gerade am besten sind. Sie haben die Aufgaben in vier Gruppen eingeteilt:
    1. Die „Goldene Mitte": Aufgaben, bei denen der Assistent manchmal richtig, manchmal falsch liegt. Hier lernt er am meisten!
    2. Die Moderaten: Etwas schwerer.
    3. Die Schweren: Fast unmöglich.
    4. Die Einfachen: Zu einfach.

Der Assistent beginnt mit den Aufgaben aus der „Goldenen Mitte". Sobald er diese meistert, bekommen er langsam die schwereren Aufgaben. So lernt er Schritt für Schritt, ohne frustriert zu werden oder sich zu langweilen.

3. Der Trick: „Selbst-Check" durch Code

Das Coolste an dem neuen Modell ist, dass es eine neue Gewohnheit entwickelt hat, die man Selbst-Check nennt.

  • Früher: Der Assistent dachte: „Ich glaube, die Antwort ist X." und gab sie ab.
  • Jetzt: Der Assistent denkt: „Ich glaube, die Antwort ist X. Aber lass mich kurz ein kleines Programm schreiben, um das zu überprüfen."
    Er schreibt also Code, um seine eigene Antwort zu testen. Wenn der Code sagt „Falsch!", denkt er nochmal nach und schreibt neuen Code. Er wird zu einem eigenen Kritiker.

4. Das Ergebnis: Ein Super-Assistent

Nach diesem Training ist der Assistent (genannt R1-CI-14B) unglaublich gut geworden.

  • Er löst Aufgaben, bei denen er vorher nur bei 44 % richtig lag, jetzt zu 72,4 %.
  • Er ist sogar besser als die aktuellen Top-Modelle von OpenAI (GPT-4o), wenn es um diese Art von Aufgaben geht – und das, obwohl er ein „offenes" Modell ist, das jeder nutzen kann.
  • Er ist effizienter: Er weiß genau, wann er reden muss und wann er den Code-Interpreter einschalten muss.

5. Ein kleiner technischer Trick (Der „Werkstatt-Trick")

Ein weiteres Problem beim Training war die Zeit. Das Ausführen von Code dauert oft lange und lässt die teuren Computer (GPUs) warten.
Die Forscher haben eine spezielle „Werkstatt" (einen separaten Server) gebaut, auf der der Code ausgeführt wird, während die eigentlichen Computer weiterarbeiten. Das hat die Trainingszeit um fast 40 % verkürzt. Stell dir vor, du hast einen Koch, der kocht, während ein anderer die Zutaten vorbereitet, damit niemand warten muss.

Zusammenfassung

Die Forscher haben einem KI-Assistenten beigebracht, nicht nur zu denken, sondern auch zu rechnen und zu prüfen. Indem sie ihn mit den richtigen Aufgaben in der richtigen Reihenfolge trainiert haben (nicht zu leicht, nicht zu schwer), hat er gelernt, seine eigenen Antworten mit Code zu überprüfen. Das Ergebnis ist ein Assistent, der in logischen und mathematischen Rätseln besser ist als viele der teuersten Modelle auf dem Markt.