Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Sprachen-Verlierer" in der KI-Welt

Stell dir vor, du hast einen genialen Koch (eine Künstliche Intelligenz), der die besten Gerichte der Welt kochen kann – aber nur, wenn du ihm Zutaten auf Englisch gibst. Er kann ein perfektes Steak (Python) oder einen tollen Burger (JavaScript) zaubern.

Aber wenn du ihn bittest, ein traditionelles indisches Curry (Fortran) oder ein komplexes japanisches Sushi (Julia) zu kochen, weil diese Sprachen in der Wissenschaft und Technik wichtig sind, dann scheitert er. Warum? Weil er in seiner Ausbildung (dem „Training") kaum Rezepte auf diesen Sprachen gesehen hat. Die Daten dafür sind einfach zu selten.

Bisher war das Problem: Um den Koch für eine neue Sprache zu trainieren, mussten Experten stundenlang neue Testrezepte schreiben, neue Küchenutensilien bauen und neue Prüfverfahren erfinden. Das war teuer, langsam und mühsam.

Die Lösung: Agnostics – Der „Universal-Verstärker"

Die Forscher haben Agnostics erfunden. Das ist wie ein magischer Trainings-Modus, der dem Koch beibringt, nicht die Sprache zu lernen, sondern das Ergebnis zu verstehen.

Stell dir Agnostics wie einen sehr strengen, aber fairen Prüfer vor, der sich nicht für die Sprache interessiert, sondern nur für das, was am Ende herauskommt.

Wie funktioniert das? In drei einfachen Schritten:

Der Übersetzer (Die Daten-Umwandlung):
Normalerweise sind Programmier-Aufgaben wie: „Schreibe eine Funktion, die eine Liste sortiert." Das ist sehr sprachspezifisch.
Agnostics nimmt diese Aufgabe und wandelt sie um in ein einfaches Spiel: „Hier ist eine Eingabe (z. B. 5 2 9), hier ist die gewünschte Ausgabe (z. B. 2 5 9). Deine Aufgabe: Erstelle ein Programm, das genau das macht."
Die Analogie: Es ist, als würdest du dem Koch sagen: „Gib mir einen roten Ball, und ich sage dir, ob du gewonnen hast." Es ist egal, ob der Ball aus Holz, Plastik oder Stein ist (egal welche Programmiersprache), solange er rot ist.
Der kleine Zettel (Die Konfiguration):
Um eine neue Sprache zu lernen, muss man nicht hunderte Seiten schreiben. Man braucht nur einen winzigen Zettel (eine YAML-Datei), auf dem steht:
- „Installiere den Compiler für Sprache X."
- „Führe das Programm so aus."
- „Hier ist der Prompt (die Anweisung)."
  *Das ist wie ein Rezept-Zettel, der nur sagt: „Nimm den Ofen auf 180 Grad und backe den Kuchen." Der Koch (die KI) muss nur noch wissen, wie man den Ofen bedient.
Der Roboter-Prüfer (Reinforcement Learning):
Jetzt kommt der spannende Teil. Die KI versucht, das Problem zu lösen. Sie schreibt Code.
- Der Roboter-Prüfer nimmt den Code, führt ihn aus und schaut auf das Ergebnis.
- Stimmt das Ergebnis mit dem Wunsch überein? Ja? -> Belohnung! (Ein virtueller Goldstern).
- Stimmt es nicht? Nein? -> Null Punkte.
  Die KI lernt durch tausende Versuche und Fehler, welche Aktionen zu den Goldsternen führen. Sie lernt nicht durch Auswendiglernen von Regeln, sondern durch Versuch und Irrtum, genau wie ein Kind, das lernt, wie man ein Fahrrad fährt, indem es oft fällt, bis es balancieren kann.

Warum ist das so revolutionär?

Es ist „Sprach-unabhängig" (Agnostisch): Der Prüfer weiß nicht, ob der Code in Fortran, R oder Lua geschrieben ist. Er sieht nur die Eingabe und die Ausgabe. Das bedeutet, man kann das gleiche System für jede Sprache nutzen, ohne jedes Mal von vorne anzufangen.
Es macht kleine Modelle groß: Die Forscher haben gezeigt, dass ein kleines Modell (Qwen 3 mit nur 4 Milliarden Parametern), das mit Agnostics trainiert wurde, besser ist als riesige, teure Modelle (mit 70 Milliarden Parametern), die nur auf Standard-Daten trainiert wurden.
- Vergleich: Ein gut trainierter Handwerker mit einfachen Werkzeugen ist besser als ein untrainierter Genie mit einer riesigen, aber verstaubten Werkzeugkiste.
Es funktioniert für die „vergessenen" Sprachen: Sprachen wie Fortran (wichtig für Wettervorhersagen und Physik) oder R (wichtig für Statistik) wurden bisher von KIs oft ignoriert. Agnostics hat diese Lücken geschlossen.

Das Ergebnis in der Praxis

Die Forscher haben das System auf fünf schwierige Sprachen angewendet: Lua, Julia, R, OCaml und Fortran.
Das Ergebnis war verblüffend:

Die kleinen Modelle haben plötzlich so gut abgeschnitten wie die größten Modelle auf dem Markt.
Sie haben neue Rekorde in Wettbewerben aufgestellt.
Der Aufwand, eine neue Sprache hinzuzufügen, betrug nur etwa eine Stunde Arbeit (das Schreiben des kleinen Konfigurations-Zettels).

Fazit

Agnostics ist wie ein universeller Trainer für KI-Programmierer. Statt für jede neue Sprache ein neues Gymnasium zu bauen, hat man ein einziges, perfektes Fitnessstudio gebaut, in dem der Trainer nur auf die Ergebnisse schaut. Egal, welche Sprache die KI spricht – wenn das Ergebnis stimmt, bekommt sie Lob. Und so lernt sie schnell, auch die seltensten und schwierigsten Sprachen zu beherrschen.

Das ist ein riesiger Schritt, damit KI nicht nur für die großen Tech-Sprachen (wie Python) da ist, sondern auch für die Spezialisten in Wissenschaft, Medizin und Ingenieurwesen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen hervorragende Leistungen beim Generieren von Code in ressourcenstarken Sprachen wie Python und JavaScript. Im Gegensatz dazu sind ihre Fähigkeiten in ressourcenarmen Programmiersprachen (z. B. Fortran, Julia, R, OCaml, Lua) stark eingeschränkt. Dies liegt an zwei Hauptfaktoren:

Datenknappheit: Es gibt deutlich weniger Trainingsdaten für diese Sprachen in öffentlichen Korpora (z. B. The Stack V2).
Post-Training-Hürden: Das Feinabstimmen (Fine-Tuning) und die Anwendung von Reinforcement Learning (RL) erfordern für jede neue Sprache spezifische Datensätze, Test-Harnesses und Infrastruktur. Das manuelle Erstellen von Übersetzern für Testfälle oder die Anpassung von RL-Umgebungen für jede Sprache ist ein erheblicher ingenieurtechnischer Aufwand, der oft nicht geleistet wird.

Bisherige Ansätze wie MultiPL-T erfordern das Schreiben von Kompilatoren, um Testfälle von Python in die Zielsprache zu übersetzen, was fehleranfällig ist und tiefes Sprachwissen voraussetzt.

2. Methodik: Der Agnostics-Ansatz

Die Autoren stellen Agnostics vor, eine sprachagnostische Post-Training-Pipeline, die den ingenieurtechnischen Aufwand pro Sprache eliminiert. Der Kerngedanke ist, dass die Korrektheit von Code für eine große Klasse von Aufgaben nicht durch die Analyse des Quellcodes, sondern ausschließlich durch sein extern beobachtbares Verhalten (Input/Output) bewertet werden kann.

Der Prozess gliedert sich in vier Hauptschritte:

A. Datenaufbereitung (Sprachagnostisches Format)

Statt Code direkt zu nutzen, werden bestehende Datensätze (wie MBPP oder Codeforces-Probleme) durch ein LLM in ein einheitliches Format umgewandelt:

I/O-Fokus: Aufgaben werden so umformuliert, dass das Programm Daten über Standard-Eingabe (stdin) liest und Ergebnisse über Standard-Ausgabe (stdout) schreibt.
Verifizierbarkeit: Dies ermöglicht einen einzigen, universellen Verifizierer, der für jede Programmiersprache funktioniert, solange der Compiler/Interpreter die I/O-Streams korrekt handhabt.

B. Sprachkonfiguration

Um eine neue Sprache zu unterstützen, benötigt der Benutzer nur eine kurze Konfigurationsdatei (ca. 4–5 Zeilen YAML), die Folgendes definiert:

Prompt-Präfix: Eine Anweisung an das Modell, Code in der Zielsprache zu generieren (kann spezifische I/O-APIs erklären, z. B. für R).
Build- und Laufzeitbefehle: Shell-Befehle zum Installieren der Toolchain, Kompilieren (falls nötig) und Ausführen des Codes.

C. Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

Das Training verwendet den GRPO-Algorithmus (Group Relative Policy Optimization):

Sandbox-Umgebung: Ein robustes, sprachagnostisches Code-Ausführungssystem basiert auf OCI-Containern. Für jede Sprache wird ein Container erstellt, der den Compiler und eine generische Test-Harness enthält.
Belohnungssignal: Das Modell generiert eine Gruppe von Lösungen. Der Verifizierer führt jeden Code in der Sandbox aus.
- Belohnung $R_i = 1$ , wenn der Code für alle Testfälle (Input/Output-Paare) korrekt funktioniert.
- Belohnung $R_i = 0$ bei Fehlern, Timeouts, Speicherüberlauf oder falscher Ausgabe.
Sicherheit: Die Sandbox erzwingt Timeouts für Kompilierung und Ausführung, begrenzt die Ausgabegröße (z. B. auf 5 MB), um DoS-Angriffe durch endlose Schleifen oder riesige Ausgaben zu verhindern, und läuft ohne erhöhte Privilegien.

D. Infrastruktur

Die Pipeline nutzt Ray für verteiltes Computing, um die Generierung von Lösungen (GPU) und die Code-Ausführung (CPU) parallel zu betreiben, was die Effizienz erheblich steigert.

3. Wichtige Beiträge

Agnostics-Pipeline: Ein Framework, das das Fine-Tuning von LLMs für beliebige Programmiersprachen ermöglicht, ohne sprachspezifische Test-Übersetzer zu benötigen.
Neue Datensätze: Erstellung und Veröffentlichung von drei sprachagnostischen Datensätzen:
- Ag-MBPP-X (basierend auf MBPP)
- Ag-Codeforces-X (basierend auf Open-R1 Codeforces)
- Ag-LiveCodeBench-X (ein neuer, mehrsprachiger Benchmark, der auf LiveCodeBench basiert).
State-of-the-Art Ergebnisse: Bereitstellung der besten Open-Weight-Modelle (≤16B Parameter) für Lua, R, Julia, OCaml und Fortran.
Effizienz: Die Anpassung einer neuen Sprache erfordert nur wenige Zeilen YAML-Konfiguration und ca. 1 Stunde Aufwand (z. B. für OCaml und Fortran).

4. Ergebnisse

Die Autoren evaluierten den Ansatz an fünf ressourcenarmen Sprachen:

Leistungssteigerung: Das Training von Qwen-3 4B mit Agnostics führt zu Ergebnissen, die mit deutlich größeren Modellen (16B–70B Parameter) wie Qwen-3 32B oder Llama-3.3 70B konkurrieren oder diese übertreffen.
Benchmark-Ergebnisse:
- Auf dem neuen Ag-LiveCodeBench-X (ein sehr schwieriger Benchmark) erreichen die trainierten Modelle Pass@1-Werte von bis zu 25% (z. B. für Lua), während die Basismodelle oft bei 0–1% liegen.
- Auf MultiPL-E zeigen die Modelle signifikante Verbesserungen, auch bei Aufgaben, die nicht strikt I/O-basiert sind (z. B. Funktionsgenerierung), was auf eine gute Generalisierung hindeutet.
Skalierbarkeit: Der Ansatz funktioniert erfolgreich auf verschiedenen Modellfamilien (Qwen, DeepSeek Coder, Phi 4 Mini, SmolLM3) und skaliert von 1.7B bis 8B Parametern.
Vergleich mit Alternativen:
- Distillation: Das Trainieren durch Nachahmen eines größeren Modells (Sonnet 4) war deutlich weniger effektiv als das direkte RL-Training.
- Rejection Sampling: Der Ansatz ist effizienter als das Generieren vieler Kandidaten und das Verwerfen fehlerhafter Lösungen, da die Akzeptanzrate bei schwierigen Problemen ohne RL zu gering wäre.
Qualitative Analyse: Eine Fehlerklassifizierung zeigt, dass das Training fundamentale Fehler (Syntax, falsche Bibliotheksnutzung, Initialisierungsfehler) drastisch reduziert. Zwar steigen komplexe logische Fehler leicht an (da die „oberflächlichen" Fehler eliminiert wurden und tiefere Probleme sichtbar werden), aber die Gesamtqualität steigt massiv.

5. Bedeutung und Fazit

Agnostics adressiert eine kritische Lücke in der KI-gestützten Programmierung: Die Fähigkeit, ressourcenarme, aber wissenschaftlich und industriell essenzielle Sprachen (wie Fortran in der Physik oder R in der Statistik) effektiv zu unterstützen.

Demokratisierung: Durch die Eliminierung des manuellen Aufwands für Test-Harnesses wird es für Forscher und Entwickler möglich, LLMs für fast jede Programmiersprache mit einer Kommandozeilen-Schnittstelle zu trainieren.
Effizienz: Die Methode zeigt, dass RL mit verifizierbaren Belohnungen (I/O-Checks) eine vielversprechendere Strategie für ressourcenarme Sprachen ist als reine Supervised Fine-Tuning oder synthetische Datengenerierung ohne Verifizierung.
Reproduzierbarkeit: Alle Daten, Code und Konfigurationen werden öffentlich zugänglich gemacht, was die Reproduzierbarkeit und Weiterentwicklung des Ansatzes fördert.

Zusammenfassend beweist das Paper, dass ein universeller, verhaltensbasierter Verifizierer ausreicht, um LLMs in beliebigen Programmiersprachen auf ein hohes Leistungsniveau zu bringen, ohne dass für jede Sprache ein neues Ökosystem an Trainingsdaten und Infrastruktur aufgebaut werden muss.

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Das große Problem: Der „Sprachen-Verlierer" in der KI-Welt

Die Lösung: Agnostics – Der „Universal-Verstärker"

Warum ist das so revolutionär?

Das Ergebnis in der Praxis

Fazit

1. Problemstellung

2. Methodik: Der Agnostics-Ansatz

A. Datenaufbereitung (Sprachagnostisches Format)

B. Sprachkonfiguration

C. Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

D. Infrastruktur

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks