From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python

Diese Arbeit stellt eine von Benchmark-Leistungen getriebene Methodik vor, bei der ein LLM einen 648.000 Zeilen großen Rust-Codebase (Codex CLI) kontinuierlich in Python übersetzt, wodurch nicht nur eine funktionale Parität mit leicht verbesserten Agentic-Fähigkeiten erreicht, sondern das System durch zusätzliche Funktionen zu einem leistungsfähigeren Superset weiterentwickelt wird.

Ursprüngliche Autoren: Jinhua Wang, Biswa Sengupta

Veröffentlicht 2026-04-14
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochmodernen, extrem schnellen Sportwagen, der aus einem sehr speziellen, aber schwer zu verstehenden Material gebaut ist (nennen wir ihn „Rust"). Dieser Wagen ist ein Meisterwerk der Ingenieurskunst, aber er ist schwer zu warten, und nur wenige Mechaniker können ihn reparieren.

Jetzt wollen Sie diesen Wagen in ein neues, beliebtes und leicht zu verstehendes Material umbauen (nennen wir wir es „Python"), damit mehr Leute ihn fahren und verbessern können. Die große Frage ist: Können wir das tun, ohne dass der Wagen langsamer wird oder kaputtgeht?

Dieses Papier von JPMorgan Chase beschreibt genau diesen Prozess. Hier ist die Geschichte, vereinfacht:

1. Der große Umzug: Vom schweren Stein zum fließenden Wasser

Das Team hat einen riesigen Software-Code (einen „KI-Coding-Agenten", der wie ein digitaler Assistent programmiert) von Rust (648.000 Zeilen Code!) nach Python (nur 41.000 Zeilen!) übersetzt.

  • Die Analogie: Stellen Sie sich vor, Sie müssten ein riesiges Schloss aus massivem Granit (Rust) in ein modernes, leichtes Haus aus Glas und Holz (Python) verwandeln.
  • Das Ergebnis: Das neue Python-Haus ist 15,9-mal kleiner als das alte Steinhaus, aber es erfüllt genau die gleichen Funktionen. Es ist so kompakt, dass es sich fast wie Magie anfühlt, wie viel Code man sparen konnte.

2. Der Prüfmeister: Nicht nur „Hoffentlich", sondern „Beweise"

Normalerweise überprüft man, ob eine Übersetzung funktioniert, indem man kleine Testfragen stellt (wie ein Mathe-Test im Unterricht). Aber das reicht hier nicht.

  • Die neue Methode: Das Team hat einen „Prüfmeister" eingesetzt, der echte, schwierige Aufgaben stellt (nennen wir ihn Terminal-Bench). Dieser Prüfer sagt: „Bau mir eine Mauer" oder „Löse dieses Rätsel."
  • Das Ergebnis: Der alte Stein-Wagen (Rust) hat 47,5 % der Aufgaben gelöst. Der neue Glas-Wagen (Python) hat 42,5 % gelöst.
  • Warum ist das gut? Das ist fast identisch! Der neue Wagen ist fast genauso schnell und klug wie der alte. Und bei einer anderen Art von Prüfung (SWE-bench) hat der neue Wagen sogar besser abgeschnitten (73,8 % vs. 70,0 %).

3. Der lebende Übersetzer: Kein einmaliges Projekt

Früher war so ein Umzug ein einmaliges Ereignis. Wenn der alte Stein-Wagen neue Teile bekam, musste man sie mühsam per Hand in das neue Glas-Haus übertragen.

  • Die Innovation: Das Team hat einen automatischen Übersetzer gebaut, der von einer KI (einem großen Sprachmodell) gesteuert wird.
  • Wie es funktioniert: Wenn der alte Rust-Code eine Änderung bekommt, schaut die KI sofort: „Was ist neu? Ah, ein neues Fenster! Ich übersetze nur dieses Fenster und prüfe sofort, ob es passt."
  • Der Vorteil: Das Python-System bleibt immer aktuell, ohne dass Menschen stundenlang arbeiten müssen. Es ist wie ein lebender Organismus, der mitwächst.

4. Vom Zwilling zum Superhelden

Das Coolste an der Geschichte ist, dass das Python-System nicht nur ein Kopie des alten Systems ist. Es ist zu einem Superhelden geworden.

  • Die Erweiterung: Das Team hat dem Python-Wagen 30 neue Superkräfte gegeben, die der alte Stein-Wagen gar nicht hatte:
    • Er kann mit mehreren Agenten gleichzeitig sprechen (Multi-Agent).
    • Er hat ein besseres Gedächtnis (Semantische Erinnerung).
    • Er kann seine Kosten überwachen und sogar mit der Stimme sprechen.
  • Der Trick: Man kann den Wagen so einstellen, dass er nur die alten Funktionen hat (zum Vergleich), oder man schaltet die neuen Superkräfte ein. So hat man die Sicherheit des Alten mit der Kraft des Neuen.

5. Warum ist das wichtig? (Die große Erkenntnis)

Man könnte denken: „Aber Rust ist doch schneller!"

  • Die Wahrheit: Bei einer KI, die Aufgaben löst, ist der langsamste Teil nicht der Computer, sondern das Warten auf die Antwort der KI (die dauert 1 bis 10 Sekunden).
  • Die Analogie: Wenn Sie auf einen Brief warten, der 10 Minuten unterwegs ist, ist es egal, ob Ihr Briefkasten aus Granit (schnell) oder aus Papier (etwas langsamer) besteht. Der Briefkasten kostet nur Millisekunden.
  • Fazit: Da Python viel einfacher zu schreiben und zu verstehen ist, lohnt es sich, die winzige Geschwindigkeitsdifferenz in Kauf zu nehmen. Man gewinnt enorm an Flexibilität und kann viel schneller neue Ideen umsetzen.

Zusammenfassung in einem Satz

Das Team hat einen riesigen, schweren Stein-Code in einen leichten, flexiblen Python-Code verwandelt, dabei die Leistung fast perfekt erhalten und das System gleichzeitig mit neuen Superkräften ausgestattet – alles gesteuert durch einen KI-Übersetzer, der ständig prüft, ob alles noch funktioniert.

Es ist wie der Beweis, dass man ein Hochhaus nicht nur aus Beton bauen muss, sondern auch aus Glas – und das Glas-Haus ist sogar noch heller und leichter zu renovieren!

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →