CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Koch (ein KI-Modell), der Millionen von Rezepten für Pizza, Sushi und Burger kennt. Du kannst diese Gerichte blindlings und perfekt zubereiten. Aber dann kommt ein neuer, exotischer Trend auf: „Cangjie". Es ist eine völlig neue Art zu kochen, die erst vor kurzem erfunden wurde. Niemand hat bisher viele Rezepte dafür geschrieben, und dein Kochbuch ist voll von den alten Klassikern, aber leer für dieses neue Ding.

Das ist genau das Problem, das die Forscher in diesem Papier mit CANGJIEBENCH untersuchen.

Hier ist die Geschichte, einfach erklärt:

1. Das Problem: Der Koch ohne Kochbuch

Die meisten KI-Modelle sind super darin, Code in Sprachen wie Python oder C++ zu schreiben, weil sie Milliarden von Beispielen dazu gelernt haben. Aber Cangjie (eine neue Programmiersprache von Huawei für das HarmonyOS-Ökosystem) ist wie ein neues Kochbuch, das noch niemand gelesen hat. Es gibt kaum Daten im Internet. Wenn man die KI einfach fragt: „Koch mir einen Cangjie-Burger", scheitert sie meistens, weil sie die „Grammatik" (die Zutaten und Anweisungen) nicht kennt.

2. Die Lösung: Ein sauberer Test (CANGJIEBENCH)

Die Forscher wollten herausfinden: Kann diese KI auch etwas Neues lernen, ohne dass man sie neu ausbilden muss?

Da es im Internet keine guten Cangjie-Rezepte gab, haben sie sich etwas Cleveres ausgedacht:

Sie haben bekannte, einfache Aufgaben aus dem Python-Kochbuch (wie „Schreibe eine Funktion, die Zahlen addiert") genommen.
Sie haben diese Aufgaben von Hand ins Cangjie-Format übersetzt.
Das Ergebnis ist CANGJIEBENCH: Ein Test, der zu 100 % sauber ist. Da die KI diese spezifischen Cangjie-Aufgaben noch nie gesehen hat, kann sie sie nicht einfach auswendig gelernt haben. Es ist ein echter Test ihres Lernvermögens.

3. Die vier Strategien: Wie versucht die KI, das Problem zu lösen?

Die Forscher haben vier verschiedene Methoden ausprobiert, um der KI zu helfen, diesen neuen „Burger" zu kochen:

Methode A: Der „Blindflug" (Direct Generation)
Die KI bekommt nur die Frage: „Koch mir das." Ohne Hilfe.
Ergebnis: Katastrophe. Die KI versucht, Python-Regeln auf Cangjie anzuwenden. Das Ergebnis ist wie ein Burger mit Schuhen statt Brötchen – es sieht aus wie Essen, aber es funktioniert nicht.
Methode B: Der „Kochzettel" (Syntax-Constrained Generation)
Die Forscher geben der KI einen kleinen Zettel mit den wichtigsten Cangjie-Regeln (z. B. „Hier benutzt man ein Komma, nicht ein Semikolon").
Ergebnis: Das war der Gewinner! Mit nur ein paar klaren Regeln konnte die KI plötzlich sehr gute Ergebnisse liefern. Es war der beste Kompromiss zwischen Aufwand und Erfolg. Die KI wusste schon, was sie tun musste (die Logik), sie brauchte nur die Regeln, wie sie es schreibt.
Methode C: Der „Nachschlage-Service" (RAG)
Die KI darf in einem digitalen Wörterbuch oder einer Bibliothek nachschauen, bevor sie kocht.
Ergebnis: Es half etwas, aber nicht so gut wie der Kochzettel. Die KI fand oft die falschen Seiten oder verstand die Hinweise nicht richtig, weil sie die Sprache gar nicht kannte.
Methode D: Der „Auszubildende mit Werkzeugkasten" (Agent)
Die KI bekommt einen virtuellen Assistenten. Sie darf selbstständig Befehle eingeben, um in der Dokumentation nachzuschauen, Fehler zu finden und es nochmal zu versuchen. Sie denkt nach, prüft und korrigiert sich selbst.
Ergebnis: Die beste Qualität. Wenn die KI so viel Zeit und „Gedankenarbeit" (Token-Verbrauch) investiert, liefert sie fast perfekte Ergebnisse. Aber es ist extrem teuer und langsam, wie ein Koch, der für einen Burger drei Stunden lang alle Schränke durchsucht.

4. Die überraschende Entdeckung: „Zu viel Hilfe schadet"

Ein sehr interessanter Punkt: Wenn die KI eine Python-Lösung hat und sie einfach ins Cangjie übersetzen soll (Code-to-Code), macht sie schlechtere Fehler als wenn sie nur eine Textbeschreibung bekommt (Text-to-Code).

Warum? Die KI versucht, die Python-Struktur zu kopieren, statt die Cangjie-Regeln zu lernen. Sie „verklebt" sich an das Alte. Es ist, als würde ein Koch versuchen, ein japanisches Gericht zu kochen, indem er einfach die Zutaten des deutschen Rezepts nimmt, aber die japanischen Namen benutzt. Das funktioniert nicht.

Fazit für den Alltag

Diese Studie zeigt uns etwas Wichtiges über die Zukunft der KI:
Wenn eine neue Technologie (wie eine neue Programmiersprache) auf den Markt kommt, müssen wir nicht unbedingt eine riesige neue KI bauen. Oft reicht es, der alten KI ein kluges Handbuch (die Syntax-Regeln) zu geben. Damit kann sie fast so gut arbeiten wie ein Experte, ohne dass wir Jahre an Daten sammeln müssen.

CANGJIEBENCH ist also wie ein neuer Fahrtest für KI-Autos: Er zeigt, dass das Auto nicht unbedingt einen neuen Motor braucht, um auf einer neuen Straße zu fahren – es braucht nur eine gute Landkarte und ein paar klare Verkehrsregeln.

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. Das Problem: Der Koch ohne Kochbuch

2. Die Lösung: Ein sauberer Test (CANGJIEBENCH)

3. Die vier Strategien: Wie versucht die KI, das Problem zu lösen?

4. Die überraschende Entdeckung: „Zu viel Hilfe schadet"

Fazit für den Alltag

1. Problemstellung und Motivation

2. Methodik: CANGJIEBENCH

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. Das Problem: Der Koch ohne Kochbuch

2. Die Lösung: Ein sauberer Test (CANGJIEBENCH)

3. Die vier Strategien: Wie versucht die KI, das Problem zu lösen?

4. Die überraschende Entdeckung: „Zu viel Hilfe schadet"

Fazit für den Alltag

1. Problemstellung und Motivation

2. Methodik: CANGJIEBENCH

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Mehr davon

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature