Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Deze paper introduceert Agnostics, een taal-onafhankelijke post-training pipeline die Reinforcement Learning met verifieerbare beloningen toepast om grote taalmodellen effectief code te leren schrijven in diverse, data-arme programmeertalen zonder per taal nieuwe datasets of infrastructuur te vereisen.

Aleksander Boruch-Gruszecki, Yangtian Zi, Zixuan Wu, Tejas Oberoi, Carolyn Jane Anderson, Joydeep Biswas, Arjun Guha

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🌍 De Probleemstelling: De Taalbarrière in de Wereld van AI

Stel je voor dat je een superintelligente robot hebt die alles kan doen, maar alleen als je met hem praat in Nederlands of Engels. Als je hem vraagt om iets te doen in een minder bekende taal, zoals Fries of Zeeuws, wordt hij er helemaal raar van. Hij weet de woorden niet, en hij heeft nooit geoefend met die specifieke dialecten.

In de wereld van kunstmatige intelligentie (AI) is dit precies wat er gebeurt met Programmeertalen.

  • Populaire talen: Python en JavaScript zijn als het Engels van de programmeerwereld. Er zijn miljarden voorbeelden van code, en AI-modellen zijn hier meesterlijk in.
  • Minder populaire talen: Talen zoals Fortran (voor wetenschappers), R (voor statistici) of Lua (voor games) zijn als die kleine dialecten. Er is veel minder data over, en AI-modellen maken hier veel fouten.

Het probleem is niet alleen dat er minder voorbeelden zijn, maar ook dat het heel veel werk kost om een AI specifiek te trainen voor elke nieuwe taal. Het is alsof je voor elke nieuwe taal een hele nieuwe school moet bouwen, met nieuwe leraren en nieuwe examens.

💡 De Oplossing: AGNOSTICS (De "Taal-Neutrale" Trainer)

De onderzoekers van dit paper hebben Agnostics bedacht. De naam komt van "agnostisch", wat betekent: "niet gekozen voor één specifieke geloofsovertuiging". In dit geval: het systeem maakt geen onderscheid tussen programmeertalen.

Hun idee is simpel maar geniaal: Het maakt niet uit hoe de code eruitziet, maar alleen wat het doet.

De Creatieve Vergelijking: De "Blinde Keurmeester"

Stel je voor dat je een kok wilt testen.

  • De oude manier: Je vraagt de kok om een gerecht te maken en je kijkt naar de ingrediëntenlijst. Als hij "Rijst" gebruikt in plaats van "Aardappelen", is het fout. Je moet voor elke nieuwe taal (elk nieuw recept) een andere keurmeester hebben die weet hoe dat specifieke recept eruit moet zien.
  • De Agnostics-methode: Je geeft de kok een opdracht: "Maak een gerecht dat smaakt als een appel." Je geeft hem een proefpersoon (een computerprogramma) die alleen proeft of het gerecht eruitziet als een appel.
    • Als de kok een gerecht maakt in het Frans, Duits of een onbekende taal, maakt het de keurmeester niet uit. De keurmeester kijkt alleen naar het eindresultaat: "Zit er een appel in? Ja? Dan is het goed. Nee? Dan is het fout."

In de paper noemen ze dit een "Universele Verificatieomgeving". Het systeem kijkt niet naar de code zelf, maar alleen naar de uitvoer (wat er op het scherm verschijnt of wat er terugkomt als antwoord).

🛠️ Hoe werkt het? (Stap voor Stap)

Het proces van Agnostics bestaat uit drie simpele stappen:

  1. De Vertaler (LLM):
    Ze nemen bestaande oefeningen (die vaak in Python staan) en laten een slimme AI ze herschrijven. In plaats van te zeggen "Schrijf een functie die dit doet", zeggen ze: "Lees deze tekst, doe hier iets mee, en schrijf het antwoord op." Dit maakt de opdracht onafhankelijk van de programmeertaal.

    • Vergelijking: Het is alsof je een examenopgave herschrijft van "Los deze vergelijking op met algebra" naar "Geef me het juiste getal als antwoord", zodat het voor iedereen werkt, ongeacht welke rekenmethode ze gebruiken.
  2. De Configuratieschijf (Het Recept):
    Voor elke nieuwe taal (bijv. Fortran) schrijven de onderzoekers een heel kort lijstje met instructies (een YAML-bestand). Hierin staat alleen: "Hoe installeer ik deze taal?" en "Hoe start ik het programma?".

    • Vergelijking: Het is als een kookboek. Je hebt één basisrecept (de AI-training), maar je voegt een klein kaartje toe met de instructies: "Gebruik een gietijzeren pan voor dit gerecht." Dat is alles wat nodig is om de AI op die specifieke taal te laten koken.
  3. De Oefensessie (Reinforcement Learning):
    De AI probeert duizenden keren een oplossing te vinden.

    • Als het antwoord goed is (de "proefpersoon" is tevreden), krijgt de AI een sterretje (beloning).
    • Als het fout is, krijgt hij een rode vlag.
    • De AI leert door duizenden pogingen heen te gaan, net zoals een kind dat leert lopen door te vallen en weer op te staan. Omdat de "keurmeester" voor elke taal hetzelfde werkt, hoeft de AI niet opnieuw te leren hoe hij getoetst wordt, alleen hoe hij in die specifieke taal code schrijft.

🚀 De Resultaten: Kleine Modellen, Grote Prestaties

Wat is het resultaat van deze methode?

  • Ze hebben een relatief klein AI-model (Qwen 3, met 4 miljard parameters) getraind op deze manier.
  • Het resultaat: Dit kleine model presteerde net zo goed (of zelfs beter) als enorme, zware modellen (met 70 miljard parameters) op deze moeilijke, minder bekende talen.
  • Ze hebben dit getest op talen als Lua, Julia, R, OCaml en Fortran.
  • Voor talen waar AI voorheen bijna niets van snapte (soms 0% succes), kwamen ze nu uit op successcores van 15% tot 25%. Dat is een enorme sprong.

🌟 Waarom is dit belangrijk?

Vroeger was het alsof je voor elke nieuwe taal een nieuwe universiteit moest bouwen. Met Agnostics is het alsof je een universele rijles hebt. Je leert de basisregels van het rijden (de logica), en je hoeft alleen maar een klein kaartje te lezen over hoe de versnellingsbak van die specifieke auto werkt.

Dit betekent dat:

  1. Wetenschappers die werken met oude talen (zoals Fortran in de ruimtevaart) eindelijk slimme AI-assistenten kunnen krijgen.
  2. Het veel goedkoper en sneller wordt om AI te trainen voor nieuwe of niche-programmeertalen.
  3. Kleine AI-modellen (die op je eigen laptop kunnen draaien) net zo goed kunnen worden als de gigantische modellen in de cloud.

Kortom: Agnostics is de sleutel om de "taalbarrière" in de AI-wereld te doorbreken, zodat slimme computers niet alleen Engels spreken, maar ook de talen van de wetenschap en de industrie kunnen begrijpen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →