CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Linguagem (LLMs), como o ChatGPT ou o Claude, são como chefes de cozinha de classe mundial. Eles são mestres em cozinhar pratos complexos com ingredientes que conhecem muito bem, como tomate, queijo e massa (que seriam linguagens de programação populares como Python ou C++). Eles podem criar receitas incríveis com esses ingredientes porque já leram milhões de livros de culinária sobre eles.

Agora, imagine que surge um novo ingrediente, totalmente desconhecido, chamado "Cangjie". Ele é a base de um novo sistema operacional (HarmonyOS) e promete ser incrível, mas ninguém no mundo já escreveu um livro de receitas sobre ele. Não há milhões de receitas na internet.

É aqui que entra o CANGJIEBENCH, o tema deste artigo.

O Problema: O Chef sem o Livro de Receitas

Os pesquisadores queriam saber: "Se dermos a esses chefs de cozinha uma receita escrita em português (Python) e pedirmos que eles a cozinhem usando o ingrediente novo Cangjie, eles conseguirão?"

O problema é que, sem um livro de receitas (dados de treinamento), os chefs tendem a:

Inventar ingredientes que não existem (erros de sintaxe).
Tentar usar o tomate de um jeito que não funciona com o Cangjie.
Simplesmente falhar.

A Solução: O "CANGJIEBENCH" (O Teste de Cozinha)

Os autores criaram um teste de culinária chamado CANGJIEBENCH. Em vez de tentar encontrar receitas na internet (o que é impossível, pois o Cangjie é novo demais), eles pegaram receitas famosas e testadas (do banco de dados HumanEval e ClassEval) e traduziram manualmente para o Cangjie.

É como se eles tivessem pegado 248 pratos famosos, escrito a versão original em português e depois, com muito cuidado, reescrito cada passo para usar o ingrediente Cangjie, garantindo que a receita fosse correta. Isso cria um "campo de treinamento" limpo, onde não há trapaça (os modelos não podem ter "decorado" a resposta antes).

O teste tem duas partes:

Do Texto para o Código: "Faça um bolo de chocolate" (descrição em texto) -> O chef tenta escrever a receita em Cangjie.
Do Código para o Código: "Aqui está a receita do bolo em português, agora escreva-a em Cangjie" (tradução).

O Experimento: Como os Chefes Tentaram

Os pesquisadores testaram quatro estratégias diferentes para ajudar os chefs a lidar com esse ingrediente novo:

Geração Direta (O "Chute"):
- A analogia: Você pede ao chef: "Faça um bolo com Cangjie!" e espera que ele adivinhe.
- Resultado: Foi um desastre. Quase nada funcionou. O chef não sabia nem como segurar a colher (sintaxe).
Geração com Restrições de Sintaxe (O "Guia Rápido"):
- A analogia: Você entrega ao chef um pequeno cartão com as regras básicas: "No Cangjie, o açúcar vai antes da farinha, e use este tipo de panela".
- Resultado: Surpreendente! Foi a melhor relação entre esforço e resultado. O chef já sabia cozinhar (lógica), só precisava saber as regras do novo ingrediente. Com esse cartão, a qualidade dos pratos subiu muito.
RAG (Recuperando Informações - O "Google"):
- A analogia: Você diz ao chef: "Vou te dar um monte de livros de culinária antigos e páginas da internet sobre Cangjie. Procure o que precisa e use".
- Resultado: Funcionou um pouco melhor do que o chute, mas foi confuso. O chef gastava muito tempo lendo livros ruins ou procurando a informação errada.
Agentes (O "Estagiário Investigador"):
- A analogia: Você dá ao chef um computador e permissão para pesquisar. O chef pode ler o manual, tentar cozinhar, ver que errou, pesquisar de novo, corrigir e tentar de novo, sozinho.
- Resultado: Foi o que produziu os melhores pratos (mais precisos). O chef aprendeu no processo.
- O porém: Custou uma fortuna em tempo e energia (tokens). Foi como se o chef tivesse passado 10 horas pesquisando para fazer um bolo que o "Guia Rápido" faria em 10 minutos.

A Grande Descoberta: A "Maldição da Tradução"

Uma descoberta curiosa foi que, às vezes, traduzir uma receita existente (de Python para Cangjie) foi pior do que criar uma do zero (do texto para o código).

Por que? O chef ficou "viciado" na forma como a receita estava escrita em português. Ele tentou copiar a estrutura do português para o Cangjie, o que estragou o prato. Quando ele teve que criar do zero (do texto), ele foi mais criativo e seguiu as regras do Cangjie com mais liberdade.

Conclusão Simples

Este estudo nos ensina duas coisas importantes para o futuro da Inteligência Artificial:

Não precisamos de milhões de livros para ensinar uma IA uma nova linguagem. Se a IA já é inteligente (sabe a lógica), basta dar a ela um guia de regras simples (o cartão de sintaxe) e ela aprende rápido e barato.
Às vezes, ter o código original atrapalha. Quando tentamos traduzir código de uma linguagem antiga para uma nova, a IA pode ficar presa nos hábitos da antiga. Às vezes, é melhor pedir para ela criar a lógica do zero na nova linguagem.

Em resumo: O CANGJIEBENCH é a prova de que, para ensinar uma IA uma nova linguagem de programação, não é necessário reescrever todo o cérebro dela. Basta dar a ela as regras do jogo e deixá-la brincar.

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

O Problema: O Chef sem o Livro de Receitas

A Solução: O "CANGJIEBENCH" (O Teste de Cozinha)

O Experimento: Como os Chefes Tentaram

A Grande Descoberta: A "Maldição da Tradução"

Conclusão Simples

Resumo Técnico: CANGJIEBENCH

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

O Problema: O Chef sem o Livro de Receitas

A Solução: O "CANGJIEBENCH" (O Teste de Cozinha)

O Experimento: Como os Chefes Tentaram

A Grande Descoberta: A "Maldição da Tradução"

Conclusão Simples

Resumo Técnico: CANGJIEBENCH

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

Mais como este

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature