CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

Each language version is independently generated for its own context, not a direct translation.

Immagina che i Modelli Linguistici (LLM) come ChatGPT siano dei cucinatori stellati. Questi chef sono maestri assoluti quando cucinano piatti famosi e diffusi in tutto il mondo, come la pizza (Python) o il burger (C++). Hanno letto milioni di ricette, quindi sanno esattamente cosa fare.

Tuttavia, cosa succede se chiedi a questi chef di cucinare un piatto fatto con un ingrediente nuovissimo e rarissimo, che è stato inventato solo ieri e che nessuno ha mai usato prima?

1. Il Problema: Il "Cangjie" è un Ingrediente Sconosciuto

Il paper parla di Cangjie, un nuovo linguaggio di programmazione creato da Huawei. È come un nuovo tipo di pasta o un nuovo spezia che non esiste in nessun libro di cucina vecchio.

Il problema: I modelli di intelligenza artificiale sono stati addestrati su vecchi libri di cucina (dati di addestramento). Non hanno mai visto Cangjie. Se provi a chiedere loro di scrivere codice in Cangjie, è come chiedere a uno chef di fare un "risotto alla cannella" senza sapere che la cannella non va nel risotto: il risultato sarà un disastro o, peggio, non si cuocerà affatto.
La ricerca precedente: Fino ad ora, gli scienziati avevano testato l'intelligenza artificiale solo su lingue "di nicchia" molto specifiche (come il linguaggio per i circuiti elettronici o per le criptovalute). Ma Cangjie è diverso: è un linguaggio generale, come l'italiano o l'inglese, ma semplicemente... non c'è ancora nessuno che lo parli.

2. La Soluzione: CANGJIEBENCH (Il "Menu di Prova")

Per capire se questi chef possono imparare a cucinare con questo nuovo ingrediente senza doverli riaddestrare da zero (cosa che costerebbe una fortuna), gli autori hanno creato CANGJIEBENCH.

È come un menu di prova segreto:

Hanno preso dei problemi di cucina classici (già risolti in italiano, cioè Python) e li hanno tradotti manualmente in Cangjie.
Non hanno copiato nulla da internet (perché non esiste), quindi è una prova "pulita": se l'AI risolve il problema, lo ha davvero imparato, non l'ha solo memorizzato.
Il menu contiene 248 piatti: alcuni semplici (funzioni base) e altri complessi (classi intere).

3. L'Esperimento: Come imparano gli Chef?

Gli autori hanno messo alla prova diversi "chef" (modelli AI) con quattro metodi diversi per vedere chi riesce a cucinare il piatto giusto:

Generazione Diretta (Il "Scommetti tutto"): Chiedi allo chef: "Fammi questo piatto in Cangjie!" senza dargli nulla.
- Risultato: Disastro. Lo chef non sa nemmeno come si tiene il coltello in Cangjie. Il piatto non viene mai cucinato.
Generazione con Regole (Il "Ricettario Rapido"): Dai allo chef un foglietto con le regole grammaticali di Cangjie (es. "qui si usa il punto e virgola", "qui le variabili si chiamano così").
- Risultato: Ottimo! È il miglior compromesso. Lo chef capisce subito la logica (che già conosce) e si adatta alle nuove regole. È come dare a uno chef italiano le istruzioni per usare la pasta giapponese: sa già cucinare, deve solo imparare la tecnica.
RAG (Il "Cerca nel Libro"): Dai allo chef un computer con cui può cercare online manuali e vecchi appunti su Cangjie mentre cucina.
- Risultato: Funziona, ma è lento e spesso lo chef si confonde cercando di trovare la ricetta giusta nel libro.
Agent (Il "Apprendista Investigatore"): Dai allo chef un assistente che può aprire il libro, leggere, scrivere, sbagliare, correggersi e chiedere aiuto finché il piatto non è perfetto.
- Risultato: Il migliore in assoluto (il piatto viene perfetto), ma costa tantissimo in termini di tempo e risorse (come se lo chef leggesse 100 libri prima di accendere il fuoco).

4. La Sorpresa: Tradurre è più difficile che Inventare?

C'è un paradosso interessante scoperto dal paper.

Se chiedi all'AI: "Scrivi un codice Cangjie per fare X" (partendo da zero), spesso ci riesce meglio.
Se chiedi all'AI: "Prendi questo codice Python e trasformalo in Cangjie" (traduzione), sbaglia di più.

Perché? È come se lo chef, vedendo la ricetta in italiano, si ostinasse a usare gli ingredienti italiani anche se gli hai detto di usare quelli giapponesi. L'AI si "fissa" sulla struttura della lingua originale (Python) e non riesce a liberarsene per adattarsi alla nuova (Cangjie). È un caso di "interferenza negativa": sapere troppo la lingua vecchia ostacola l'apprendimento di quella nuova.

In Sintesi

Questo studio ci dice due cose fondamentali:

Le regole contano: Se diamo all'AI le regole grammaticali di una nuova lingua, può impararla istantaneamente senza bisogno di anni di studio (addestramento). Non serve un nuovo cervello, serve solo un manuale di istruzioni.
La traduzione è insidiosa: A volte è più facile inventare qualcosa in una nuova lingua che tradurre qualcosa da una lingua vecchia, perché il nostro cervello (o l'AI) tende a copiare i vecchi schemi invece di adattarsi.

CANGJIEBENCH è quindi la prima "palestra" sicura per testare quanto velocemente l'intelligenza artificiale può imparare lingue di programmazione nuove e rare, preparandoci per il futuro in cui potrebbero nascere decine di nuovi linguaggi ogni anno.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Large Language Models (LLM) hanno dimostrato eccellenti capacità nella generazione e traduzione di codice per linguaggi ad alta risorsa (come Python e C++), dove sono disponibili enormi corpus di dati di addestramento. Tuttavia, le loro prestazioni crollano drasticamente quando applicati a linguaggi a bassa risorsa (low-resource), caratterizzati da una scarsità di dati pubblici.

La ricerca esistente si è concentrata prevalentemente su Linguaggi Specifici di Dominio (DSL) come Verilog o Solidity. Questo approccio presenta due limiti:

Entanglement con la conoscenza del dominio: È difficile distinguere se un modello fallisce per mancanza di conoscenza sintattica o per mancanza di competenze specifiche del settore (es. logica hardware).
Rischio di contaminazione: Molti linguaggi etichettati come "a bassa risorsa" (es. Lua, R) sono comunque presenti in grandi quantità nei corpus di pre-addestramento storici.

Il paper introduce Cangjie, un linguaggio di programmazione general-purpose moderno sviluppato da Huawei per l'ecosistema HarmonyOS. Essendo stato rilasciato di recente (luglio 2025), Cangjie è privo di dati di addestramento nei modelli attuali, rappresentando un caso di studio ideale per testare i limiti della generalizzazione degli LLM senza interferenze di conoscenza preesistente.

2. Metodologia

Gli autori hanno sviluppato CANGJIEBENCH, il primo benchmark completo e privo di contaminazione per il linguaggio Cangjie.

Costruzione del Dataset

Strategia di Traduzione Manuale: A causa della scarsità di codice open-source Cangjie, il dataset è stato creato traducendo manualmente i dataset standard HumanEval (164 problemi) e ClassEval (84 problemi) da Python a Cangjie.
Principi di Costruzione:
- Adattamento dei Tipi: Mappatura rigorosa dei tipi di base e delle strutture dati (es. int $\to$ Int64, list $\to$ ArrayList).
- Nessuna Contaminazione: Essendo una traduzione manuale da dataset esistenti e non un'acquisizione da internet, si garantisce che i modelli non abbiano "memorizzato" le soluzioni.
- Indipendenza: I problemi sono auto-contenuti in file singoli, evitando dipendenze da librerie esterne non ancora disponibili in Cangjie.
Dimensione: Il dataset finale comprende 248 campioni di alta qualità.

Compiti di Valutazione

Il benchmark valuta due compiti principali:

Text-to-Code: Generazione di codice Cangjie partendo da una descrizione in linguaggio naturale.
Code-to-Code: Traduzione di codice Python esistente in codice Cangjie.

Paradigmi di Valutazione

Sono stati testati quattro approcci per determinare quale permetta agli LLM di generalizzare meglio senza fine-tuning:

Direct Generation: Prompting zero-shot diretto.
Syntax-Constrained Generation: Inserimento nel prompt di regole grammaticali concise e curate da esperti per guidare la sintassi.
Retrieval-Augmented Generation (RAG): Utilizzo di documentazione ufficiale o snippet di codice recuperati (tramite BM25) per fornire esempi few-shot.
Agent: Utilizzo di agenti CLI autonomi che consultano iterativamente la documentazione e correggono gli errori, simulando un flusso di sviluppo umano.

3. Contributi Chiave

CANGJIEBENCH: Il primo benchmark di riferimento per un linguaggio general-purpose a bassa risorsa, che copre sia la generazione che la traduzione del codice.
Nuova Prospettiva di Ricerca: Trattare Cangjie come un linguaggio general-purpose permette di isolare la capacità di apprendimento della sintassi dagli LLM, rimuovendo il rumore della conoscenza di dominio tipico dei DSL.
Analisi Comparativa: Valutazione sistematica di quattro paradigmi (Direct, Syntax-Constrained, RAG, Agent) su modelli SOTA (inclusi GPT-5, DeepSeek-V3, Qwen3, Kimi-K2).
Scoperta del "Negative Transfer": Dimostrazione empirica che la traduzione Code-to-Code può essere meno efficace della generazione Text-to-Code a causa dell'overfitting sui pattern della lingua sorgente.

4. Risultati Sperimentali

Gli esperimenti su 6 modelli LLM (open e closed-source) hanno rivelato trend significativi:

Difficoltà della Generazione Diretta: La generazione diretta (Zero-shot) ha prestazioni disastrose (Pass@1 < 5% per la maggior parte dei modelli), con tassi di compilazione quasi nulli. Questo conferma che gli LLM mancano completamente di conoscenza sintattica di Cangjie.
Efficacia dei Vincoli Sintattici: L'approccio Syntax-Constrained ha offerto il miglior compromesso tra accuratezza e costo computazionale. Fornire regole grammaticali concise ha fatto schizzare il Pass@1 di GPT-5 dal 4.3% al 53.8%. Questo suggerisce che la logica algoritmica è già nota ai modelli; il collo di bottiglia è puramente sintattico.
Limiti del RAG: Sebbene migliori rispetto alla generazione diretta, il RAG (sia su codice che su documentazione) ha prestazioni inferiori rispetto ai vincoli sintattici. Il modello fatica a generalizzare regole complesse da snippet isolati o a generare query di ricerca efficaci senza conoscenza pregressa.
Performance degli Agent: Gli agenti basati su CLI (in particolare GPT-5 con Codex CLI) hanno raggiunto lo stato dell'arte con un Pass@1 del 77.6%. Tuttavia, questo successo comporta un consumo di token estremamente elevato (fino a 500k+ token per problema), rendendo l'approccio poco pratico per applicazioni reali a causa dei costi e della latenza.
Fenomeno di Negative Transfer: È emerso che la traduzione Code-to-Code (da Python a Cangjie) spesso performa peggio della generazione Text-to-Code. I modelli tendono a sovrapporsi ai pattern dinamici del Python, imitando la sintassi sorgente invece di adattarsi alla sintassi statica di Cangjie. La generazione da testo permette invece di costruire direttamente la struttura target corretta.

5. Significato e Implicazioni

Il lavoro di CANGJIEBENCH offre intuizioni cruciali per il futuro dell'adattamento dei modelli linguistici ai nuovi linguaggi di programmazione:

Sostituzione del Fine-tuning: Per linguaggi emergenti, l'aggiunta di contesto strutturato (regole sintattiche) nel prompt è più efficiente ed efficace rispetto al fine-tuning massiccio o al RAG generico.
Strategia Ibrida: Un approccio ibrido che utilizza la generazione vincolata per compiti semplici e passa agli agenti solo per casi complessi o fallimenti di compilazione potrebbe ottimizzare il rapporto costo-prestazioni.
Ridefinizione della Traduzione: La ricerca sulla traduzione del codice dovrebbe spostarsi verso rappresentazioni intermedie semantiche per evitare il "rumore sintattico" della lingua sorgente, piuttosto che tradurre riga per riga.

In sintesi, CANGJIEBENCH stabilisce un nuovo standard per valutare la capacità di generalizzazione degli LLM, dimostrando che con il giusto contesto (vincoli sintattici), i modelli possono padroneggiare linguaggi completamente nuovi anche in assenza di dati di addestramento.