CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

Each language version is independently generated for its own context, not a direct translation.

CANGJIEBENCH: Een Speurtocht naar Code in een Nieuwe Taal

Stel je voor dat je een meester-bakker bent die perfect koekjes kan bakken in het Nederlands, Engels en Frans. Je kent de recepten uit je hoofd. Maar dan krijg je een nieuwe, vreemde taal aangeboden: Cangjie. Dit is een moderne programmeertaal die net is uitgevonden door Huawei voor hun nieuwe besturingssysteem. Het probleem? Er zijn nog geen bakboeken, geen recepten en niemand heeft er ooit eerder mee gekookt.

Dit is precies waar dit onderzoek over gaat. De auteurs hebben een nieuwe test ontwikkeld, genaamd CANGJIEBENCH, om te kijken hoe goed kunstmatige intelligentie (AI) kan leren koken in deze nieuwe taal, zonder dat ze er ooit eerder van hebben gehoord.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Probleem: De "Lege Bibliotheek"

De meeste AI-modellen zijn getraind op enorme hoeveelheden data van populaire talen zoals Python of Java. Ze zijn als studenten die alle boeken in de bibliotheek hebben gelezen. Maar Cangjie is als een nieuwe taal die gisteren is uitgevonden. Er zijn geen boeken over. Als je een AI vraagt code te schrijven in Cangjie, is het alsof je een student vraagt een essay te schrijven in een taal die ze net hebben bedacht, zonder woordenboek. De meeste AI's vallen dan in paniek en maken onzin.

2. De Oplossing: Een Schone Test (Geen "Cheaten")

Om dit eerlijk te testen, hebben de onderzoekers geen oude code van het internet gekopieerd (want dat zou de AI kunnen "leren" door te onthouden in plaats van te begrijpen). In plaats daarvan hebben ze bekende, moeilijke puzzels uit Python (een populaire taal) handmatig vertaald naar Cangjie.

De Analogie: Stel je voor dat je een set wiskundepuzzels hebt. Je neemt de vragen, maar verandert de taal waarin de antwoorden moeten worden geschreven. Zo weten ze zeker dat de AI de logica van de puzzel moet begrijpen, en niet alleen de antwoorden uit haar geheugen moet halen.

3. De Vier Strategieën: Hoe probeert de AI het?

De onderzoekers hebben gekeken hoe verschillende methoden werken om de AI te helpen deze nieuwe taal te leren. Ze hebben vier benaderingen getest:

A. Directe Creatie (De "Gokker"):
Je vraagt de AI gewoon: "Schrijf dit in Cangjie."
- Resultaat: Het is een ramp. De AI probeert het te raden, maar omdat ze de regels niet kent, maakt ze grammaticale fouten. Het is alsof je iemand vraagt een zinnen te maken in het Chinees zonder dat ze het alfabet kent. Het resultaat is onleesbaar.
B. Grammatica-Richtlijnen (De "Spiekbrief"):
Je geeft de AI een kort, duidelijk overzicht van de belangrijkste regels van Cangjie (zoals "een zin begint met een hoofdletter" of "gebruik dit symbool voor lijsten").
- Resultaat: Dit werkt verrassend goed! De AI had de logica al in haar hoofd, ze miste alleen de specifieke regels. Met een kleine "spiekbrief" in het gesprek (prompt) kon ze plotseling veel betere code schrijven. Dit was de meest efficiënte methode: veel succes voor weinig moeite.
C. Opzoeken in Documentatie (De "Zoeker"):
Je laat de AI zoeken in een digitale bibliotheek met handleidingen over Cangjie voordat ze antwoordt.
- Resultaat: Het werkt beter dan niets, maar de AI is vaak slecht in het vinden van de juiste informatie. Ze zoekt naar de verkeerde woorden of raakt verward door te veel informatie. Het is alsof iemand een zoektocht doet in een enorme bibliotheek, maar de verkeerde boeken pakt.
D. De Agent (De "Onderzoeker"):
Je geeft de AI een robot-assistent die zelfstandig kan zoeken, lezen en proberen. De AI kan zelf beslissen: "Ik weet dit niet, ik ga even de handleiding opzoeken, proberen, en als het mislukt, zoek ik opnieuw."
- Resultaat: Dit gaf de beste resultaten. De AI kon zichzelf corrigeren en leerde onderweg. Maar het was heel duur en langzaam. Het was alsof je een student een hele dag laat studeren voor een examen dat ze in 10 minuten hadden kunnen halen als je ze gewoon de regels had gegeven. Het kostte enorm veel rekenkracht (tokens).

4. De Verrassende Ontdekking: "Oude Gewoontes"

Een van de coolste ontdekkingen was dat het soms moeilijker is om code van Python naar Cangjie te vertalen dan om een nieuwe tekst in Cangjie te schrijven.

De Analogie: Stel je voor dat je een tekst in het Nederlands moet vertalen naar een nieuwe taal. Je blijft onbewust de zinsbouw van het Nederlands gebruiken, terwijl de nieuwe taal een heel andere structuur heeft. De AI "plakt" de oude Python-regels op de nieuwe Cangjie-structuur, wat resulteert in een rommeltje. Als je de AI echter vraagt om niets te zien van de oude taal en gewoon een nieuwe tekst te schrijven, doet ze het juist beter! Ze moet de oude gewoontes vergeten om de nieuwe taal te leren.

Conclusie: Wat betekent dit voor de toekomst?

Deze studie laat zien dat we niet per se enorme, dure AI-modellen nodig hebben om nieuwe programmeertalen te leren. Als je de AI gewoon de regels (de grammatica) geeft, kan ze haar bestaande kennis van logica toepassen op de nieuwe taal.

Voor de "gewone" gebruiker: Als er morgen een nieuwe programmeertaal uitkomt, hoeft de AI niet maandenlang te worden getraind. Geef haar gewoon een snelle handleiding, en ze is klaar om te werken.
Voor de "Agent": Hoewel slimme agents die zelf zoeken het beste resultaat geven, zijn ze vaak te duur voor dagelijks gebruik. De "spiekbrief-methode" (Syntax-Constrained) is de gouden middenweg: goedkoop, snel en effectief.

Kortom: CANGJIEBENCH is de eerste eerlijke test die laat zien dat AI's niet alleen kunnen "onthouden", maar ook echt kunnen leren als je ze de juiste hulpmiddelen geeft, zelfs in een taal die ze nog nooit hebben gezien.

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. Het Probleem: De "Lege Bibliotheek"

2. De Oplossing: Een Schone Test (Geen "Cheaten")

3. De Vier Strategieën: Hoe probeert de AI het?

4. De Verrassende Ontdekking: "Oude Gewoontes"

Conclusie: Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Toekomstperspectief

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. Het Probleem: De "Lege Bibliotheek"

2. De Oplossing: Een Schone Test (Geen "Cheaten")

3. De Vier Strategieën: Hoe probeert de AI het?

4. De Verrassende Ontdekking: "Oude Gewoontes"

Conclusie: Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Toekomstperspectief

Meer zoals dit

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature