Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Each language version is independently generated for its own context, not a direct translation.

Immagina che i Grandi Modelli Linguistici (LLM), come quelli che scrivono codice per te, siano come cucine stellate Michelin.

Il Problema: La Cucina che sa solo cucinare la Pizza

Oggi, queste "cucine" sono bravissime a cucinare piatti popolari come la pizza o la pasta (in gergo tecnico: Python e JavaScript). Hanno milioni di ricette, ingredienti e chef esperti che le hanno addestrate su questi piatti.

Ma cosa succede se chiedi loro di cucinare un piatto tradizionale di una regione remota, come un brodo di Fortran (usato nella scienza) o un dolce di Julia (usato in ingegneria)?
Il problema è duplice:

Mancano gli ingredienti: C'è pochissimo materiale di addestramento per queste lingue "rare".
Manca la ricetta di prova: Per insegnare a uno chef a cucinare un nuovo piatto, di solito gli dai una lista di errori specifici da evitare per quel piatto. Ma per ogni nuova lingua, dovresti assumere un nuovo esperto che scriva una nuova lista di regole. È lento, costoso e noioso.

La Soluzione: Agnostics (Il "Gusto Universale")

Gli autori di questo paper hanno creato Agnostics. Immagina Agnostics non come un nuovo chef, ma come un sistema di assaggio universale.

Invece di chiedere allo chef: "Hai usato la giusta quantità di sale secondo la ricetta francese?", Agnostics dice:

"Non importa come hai cucinato il piatto o con quale lingua. L'importante è: se lo assaggio, sa di 'buono'?"

Ecco come funziona, passo dopo passo, con le nostre metafore:

1. La Traduzione del Menu (Preparazione dei Dati)

Prima di tutto, prendono i vecchi compiti di programmazione (che sono scritti in modo complicato, come "scrivi una funzione Python che fa X") e li trasformano in un formato semplice: "Leggi questo input, fai questo calcolo, scrivi questo output".
È come prendere una ricetta complessa piena di termini tecnici e ridurla a: "Metti 2 uova, mescola, cuoci. Se il risultato è una frittata, hai vinto. Se è un uovo sodo, hai perso".
Questo formato è agnostico: non importa se lo chef parla italiano, cinese o francese, il risultato finale è lo stesso.

2. La "Scatola Magica" (L'Ambiente di Esecuzione)

Qui sta il genio. Invece di costruire un laboratorio di cucina diverso per ogni lingua, costruiscono una scatola magica (un container) che può cucinare qualsiasi piatto.

Se vuoi cucinare in R, la scatola installa gli utensili per R.
Se vuoi cucinare in OCaml, la scatola cambia gli utensili.
Tutto ciò che serve all'utente è un piccolo foglietto di istruzioni (un file di configurazione di 4-5 righe) che dice alla scatola: "Oggi cuciniamo in OCaml, ecco come accendere il forno".

3. L'Allenamento con la Ricompensa (Reinforcement Learning)

Ora, prendiamo un modello piccolo (come un apprendista chef di 4 miliardi di "neuroni", ovvero Qwen 3 4B) e lo mettiamo a lavorare in questa scatola.

Il modello prova a scrivere il codice (la ricetta).
La scatola lo esegue.
Il Verdetto: Se l'output è corretto (il piatto è buono), il modello riceve un premio (un "bravo chef!"). Se è sbagliato, riceve zero.
Il modello riprova migliaia di volte, imparando dai suoi errori, finché non diventa bravissimo a cucinare quel piatto specifico.

I Risultati: Piccoli Giganti

Cosa è successo quando hanno provato questo metodo su lingue rare come Lua, Julia, R, OCaml e Fortran?

Piccoli modelli, grandi risultati: Hanno preso un modello piccolo (4B parametri) e, dopo questo allenamento, è diventato più bravo di mostri enormi (modelli da 16B o 70B parametri) su queste lingue specifiche. È come se un apprendista, dopo aver studiato con il metodo giusto, superasse un cuoco esperto ma pigro.
Flessibilità: Funziona con modelli diversi (non solo Qwen, ma anche DeepSeek, Phi, SmolLM).
Velocità: Una volta costruita la "scatola magica", aggiungere una nuova lingua richiede meno di un'ora di lavoro (solo scrivere quel piccolo foglietto di istruzioni).

In Sintesi

Agnostics è come un traduttore universale di competenze.
Invece di insegnare a un'intelligenza artificiale ogni singola lingua di programmazione con metodi diversi e costosi, insegna loro a risolvere problemi basandosi solo sul risultato finale.

È un po' come dire a un robot: "Non preoccuparti di quale lingua usi per parlare, l'importante è che quando ti chiedo '2+2', tu mi dia '4'. Se ci riesci, hai vinto, indipendentemente da come hai fatto il calcolo".

Grazie a questo approccio, le lingue di programmazione "povere" e specializzate (quelle usate da scienziati e ingegneri) possono finalmente beneficiare della potenza delle moderne intelligenze artificiali, senza bisogno di costruire un nuovo sistema da zero ogni volta.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Large Language Models (LLM) eccellono nella generazione di codice per linguaggi ad alta risorsa come Python e JavaScript, ma faticano notevolmente con i linguaggi a bassa risorsa (es. Fortran, Julia, R, OCaml, Lua). Questi linguaggi sono fondamentali in settori critici come la scienza computazionale, la medicina e l'analisi dati.

Le cause di questo divario sono due:

Scarsità di dati di pre-addestramento: Corpi di codice come The Stack V2 contengono centinaia di gigabyte di Python, ma solo pochi gigabyte di linguaggi come Fortran o Julia.
Colli di bottiglia nel post-addestramento: Le tecniche attuali di affinamento (fine-tuning) e apprendimento per rinforzo (RL) richiedono dataset specifici per linguaggio, harness di test complessi e infrastrutture RL dedicate. Creare questi componenti per ogni nuovo linguaggio richiede un'enorme spesa ingegneristica umana, rendendo difficile l'espansione a nuovi linguaggi.

2. Metodologia: Agnostics

Il paper introduce Agnostics, una pipeline di post-addestramento agnostica rispetto al linguaggio che elimina la necessità di ingegnerizzazione specifica per ogni linguaggio. L'idea centrale è valutare la correttezza del codice basandosi esclusivamente sul suo comportamento osservabile esternamente (Input/Output), rendendo il linguaggio di implementazione del verificatore indipendente dal linguaggio appreso dal modello.

La metodologia si articola in quattro fasi principali:

A. Preparazione dei Dati (Reformulation)

Invece di creare nuovi dataset da zero, Agnostics utilizza un LLM per riformulare dataset esistenti (come MBPP o Codeforces) in un formato unificato basato su I/O standard:

I problemi vengono trasformati da "completare una funzione" a "scrivere un programma che legge dallo standard input e scrive sullo standard output".
Le specifiche di input/output vengono rese esplicithe e non ambigue (es. numero di decimali, separatori).
Questo permette di utilizzare un unico verificatore per tutti i linguaggi.

B. Configurazione del Linguaggio

Per supportare un nuovo linguaggio, è sufficiente un file di configurazione YAML molto breve (4-5 righe) che specifica:

Comandi di installazione: Come installare il toolchain (es. apt-get install r-cran-tidyverse).
Comandi di esecuzione: Come compilare ed eseguire il codice.
Prefisso del prompt: Istruzioni specifiche per guidare il modello (es. avvertenze su API di I/O peculiari o sintassi specifica). Per linguaggi molto difficili (OCaml, Fortran), il prefisso è generato analizzando errori comuni tramite un LLM avanzato.

C. Ambiente di Esecuzione e Verifica

Viene utilizzato un sandbox di esecuzione robusto e agnostico:

I programmi candidati vengono estratti, compilati (se necessario) ed eseguiti all'interno di container OCI (Docker).
Il sistema applica timeout rigorosi sia per la compilazione che per l'esecuzione per prevenire loop infiniti o espansioni di macro infinite.
Viene limitato l'uso di memoria e la dimensione dell'output per evitare crash del verificatore.

D. Apprendimento per Rinforzo (RL)

Il training utilizza l'algoritmo GRPO (Group Relative Policy Optimization) con ricompense verificabili (RLVR):

Il modello genera un gruppo di risposte per ogni prompt.
Il verificatore assegna una ricompensa binaria ( $R=1$ se il programma passa tutti i test I/O, $R=0$ altrimenti).
Non vengono utilizzati modelli di ricompensa appresi, ma la verifica diretta dell'esecuzione.
Vengono evitate ricompense parziali per evitare che il modello impari a "barare" (es. producendo output vuoti o codici fissi).

3. Contributi Chiave

Pipeline Agnostics: Un framework completo per l'addestramento RL su codici in qualsiasi linguaggio di programmazione con sforzo ingegneristico minimo.
Nuovi Dataset: Creazione di tre dataset trasformati:
- Ag-MBPP-X (basato su MBPP).
- Ag-Codeforces-X (basato su Open-R1 Codeforces).
- Ag-LiveCodeBench-X (una nuova versione multilingue di LiveCodeBench, più difficile di MultiPL-E).
Framework di Training: Un'implementazione efficiente basata su Ray che gestisce la generazione parallela, il calcolo delle perdite e la gestione dei container.
Risultati SOTA: Nuovi record per modelli open-weight $\le 16B$ su linguaggi a bassa risorsa.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su 5 linguaggi a bassa risorsa: Lua, Julia, R, OCaml e Fortran.

Prestazioni dei Modelli:
- L'addestramento di Qwen 3 4B con Agnostics ha prodotto modelli che competono con modelli open-weight molto più grandi (16B–70B) come Llama 3.3 70B o Qwen 3 32B.
- Su Ag-LiveCodeBench-X, i modelli Qwen3-4B addestrati hanno raggiunto punteggi che superano DeepSeek Coder v2 Lite (16B) e si avvicinano a modelli da 70B.
- Per linguaggi come OCaml e Fortran, le prestazioni sono passate da quasi zero a circa il 7% e 15% rispettivamente, superando modelli "frontier" di grandi dimensioni.
Scalabilità:
- Il metodo scala bene su modelli più grandi (Qwen 3 8B) e su diverse famiglie di modelli (DeepSeek Coder 6.7B, Phi 4 Mini, SmolLM3 3B), migliorando le prestazioni su tutti i linguaggi testati.
- Non si osserva un "negative transfer": l'addestramento su un linguaggio a bassa risorsa non degrada le prestazioni su altri linguaggi (incluso Python).
Analisi Qualitativa:
- L'analisi degli errori mostra una drastica riduzione di errori fondamentali (sintassi, uso errato di funzioni built-in, errori di parsing dell'input).
- Si osserva un leggero aumento degli errori logici complessi, il che indica che il modello ha superato le barriere sintattiche di base ed è ora in grado di esprimere la logica corretta, rendendo visibili i veri limiti algoritmici.
Confronto con Alternative:
- Distillazione: L'approccio Agnostics supera la distillazione da modelli più grandi (es. Sonnet 4), che si è rivelata meno efficace per linguaggi a bassa risorsa dove anche i grandi modelli faticano.
- Rejection Sampling: Il campionamento per rifiuto (generare molte soluzioni e tenere solo quelle corrette) sarebbe proibitivamente costoso per questi linguaggi, dato il tasso di successo iniziale molto basso (<1% per Fortran).

5. Significato e Impatto

Il lavoro di Agnostics rappresenta un cambio di paradigma nell'addestramento di LLM per la programmazione:

Democratizzazione: Rende accessibile l'addestramento di modelli di coding per qualsiasi linguaggio, purché esista un toolchain da riga di comando, riducendo la barriera d'ingresso da mesi di lavoro ingegneristico a poche righe di configurazione YAML.
Efficienza: Elimina la necessità di creare dataset di supervisione specifici o traduttori di test case complessi per ogni linguaggio.
Futuro: La metodologia è scalabile a dataset enormi (es. convertendo milioni di problemi di ragionamento su codice in formato I/O) e promette di colmare il divario tra linguaggi ad alta e bassa risorsa, rendendo gli LLM strumenti pratici per settori specializzati come la ricerca scientifica e l'ingegneria.

Il codice, i dati e i modelli sono stati rilasciati pubblicamente per garantire la riproducibilità.