Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Die Arbeit stellt Agnostics vor, eine sprachunabhängige Nachtrainingspipeline, die durch die Bewertung von Code allein anhand seiner externen Ausführungsergebnisse und den Einsatz von Verstärkungslernen die Anpassung von Sprachmodellen an ressourcenarme Programmiersprachen ohne aufwändige sprachspezifische Infrastruktur ermöglicht und dabei neue State-of-the-Ergebnisse erzielt.

Aleksander Boruch-Gruszecki, Yangtian Zi, Zixuan Wu, Tejas Oberoi, Carolyn Jane Anderson, Joydeep Biswas, Arjun Guha

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Sprachen-Verlierer" in der KI-Welt

Stell dir vor, du hast einen genialen Koch (eine Künstliche Intelligenz), der die besten Gerichte der Welt kochen kann – aber nur, wenn du ihm Zutaten auf Englisch gibst. Er kann ein perfektes Steak (Python) oder einen tollen Burger (JavaScript) zaubern.

Aber wenn du ihn bittest, ein traditionelles indisches Curry (Fortran) oder ein komplexes japanisches Sushi (Julia) zu kochen, weil diese Sprachen in der Wissenschaft und Technik wichtig sind, dann scheitert er. Warum? Weil er in seiner Ausbildung (dem „Training") kaum Rezepte auf diesen Sprachen gesehen hat. Die Daten dafür sind einfach zu selten.

Bisher war das Problem: Um den Koch für eine neue Sprache zu trainieren, mussten Experten stundenlang neue Testrezepte schreiben, neue Küchenutensilien bauen und neue Prüfverfahren erfinden. Das war teuer, langsam und mühsam.

Die Lösung: Agnostics – Der „Universal-Verstärker"

Die Forscher haben Agnostics erfunden. Das ist wie ein magischer Trainings-Modus, der dem Koch beibringt, nicht die Sprache zu lernen, sondern das Ergebnis zu verstehen.

Stell dir Agnostics wie einen sehr strengen, aber fairen Prüfer vor, der sich nicht für die Sprache interessiert, sondern nur für das, was am Ende herauskommt.

Wie funktioniert das? In drei einfachen Schritten:

  1. Der Übersetzer (Die Daten-Umwandlung):
    Normalerweise sind Programmier-Aufgaben wie: „Schreibe eine Funktion, die eine Liste sortiert." Das ist sehr sprachspezifisch.
    Agnostics nimmt diese Aufgabe und wandelt sie um in ein einfaches Spiel: „Hier ist eine Eingabe (z. B. 5 2 9), hier ist die gewünschte Ausgabe (z. B. 2 5 9). Deine Aufgabe: Erstelle ein Programm, das genau das macht."
    Die Analogie: Es ist, als würdest du dem Koch sagen: „Gib mir einen roten Ball, und ich sage dir, ob du gewonnen hast." Es ist egal, ob der Ball aus Holz, Plastik oder Stein ist (egal welche Programmiersprache), solange er rot ist.

  2. Der kleine Zettel (Die Konfiguration):
    Um eine neue Sprache zu lernen, muss man nicht hunderte Seiten schreiben. Man braucht nur einen winzigen Zettel (eine YAML-Datei), auf dem steht:

    • „Installiere den Compiler für Sprache X."
    • „Führe das Programm so aus."
    • „Hier ist der Prompt (die Anweisung)."
      *Das ist wie ein Rezept-Zettel, der nur sagt: „Nimm den Ofen auf 180 Grad und backe den Kuchen." Der Koch (die KI) muss nur noch wissen, wie man den Ofen bedient.
  3. Der Roboter-Prüfer (Reinforcement Learning):
    Jetzt kommt der spannende Teil. Die KI versucht, das Problem zu lösen. Sie schreibt Code.

    • Der Roboter-Prüfer nimmt den Code, führt ihn aus und schaut auf das Ergebnis.
    • Stimmt das Ergebnis mit dem Wunsch überein? Ja? -> Belohnung! (Ein virtueller Goldstern).
    • Stimmt es nicht? Nein? -> Null Punkte.
      Die KI lernt durch tausende Versuche und Fehler, welche Aktionen zu den Goldsternen führen. Sie lernt nicht durch Auswendiglernen von Regeln, sondern durch Versuch und Irrtum, genau wie ein Kind, das lernt, wie man ein Fahrrad fährt, indem es oft fällt, bis es balancieren kann.

Warum ist das so revolutionär?

  • Es ist „Sprach-unabhängig" (Agnostisch): Der Prüfer weiß nicht, ob der Code in Fortran, R oder Lua geschrieben ist. Er sieht nur die Eingabe und die Ausgabe. Das bedeutet, man kann das gleiche System für jede Sprache nutzen, ohne jedes Mal von vorne anzufangen.
  • Es macht kleine Modelle groß: Die Forscher haben gezeigt, dass ein kleines Modell (Qwen 3 mit nur 4 Milliarden Parametern), das mit Agnostics trainiert wurde, besser ist als riesige, teure Modelle (mit 70 Milliarden Parametern), die nur auf Standard-Daten trainiert wurden.
    • Vergleich: Ein gut trainierter Handwerker mit einfachen Werkzeugen ist besser als ein untrainierter Genie mit einer riesigen, aber verstaubten Werkzeugkiste.
  • Es funktioniert für die „vergessenen" Sprachen: Sprachen wie Fortran (wichtig für Wettervorhersagen und Physik) oder R (wichtig für Statistik) wurden bisher von KIs oft ignoriert. Agnostics hat diese Lücken geschlossen.

Das Ergebnis in der Praxis

Die Forscher haben das System auf fünf schwierige Sprachen angewendet: Lua, Julia, R, OCaml und Fortran.
Das Ergebnis war verblüffend:

  • Die kleinen Modelle haben plötzlich so gut abgeschnitten wie die größten Modelle auf dem Markt.
  • Sie haben neue Rekorde in Wettbewerben aufgestellt.
  • Der Aufwand, eine neue Sprache hinzuzufügen, betrug nur etwa eine Stunde Arbeit (das Schreiben des kleinen Konfigurations-Zettels).

Fazit

Agnostics ist wie ein universeller Trainer für KI-Programmierer. Statt für jede neue Sprache ein neues Gymnasium zu bauen, hat man ein einziges, perfektes Fitnessstudio gebaut, in dem der Trainer nur auf die Ergebnisse schaut. Egal, welche Sprache die KI spricht – wenn das Ergebnis stimmt, bekommt sie Lob. Und so lernt sie schnell, auch die seltensten und schwierigsten Sprachen zu beherrschen.

Das ist ein riesiger Schritt, damit KI nicht nur für die großen Tech-Sprachen (wie Python) da ist, sondern auch für die Spezialisten in Wissenschaft, Medizin und Ingenieurwesen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →