CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

O artigo apresenta o CangjieBench, um benchmark livre de contaminação para avaliar modelos de linguagem em Cangjie, uma linguagem de programação geral de baixo recurso, revelando que a geração com restrições sintáticas oferece o melhor equilíbrio entre precisão e custo, enquanto a tradução de código para código sofre de transferência negativa.

Junhang Cheng, Fang Liu, Jia Li, Chengru Wu, Nanxiang Jiang, Li Zhang

Publicado 2026-03-17
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Linguagem (LLMs), como o ChatGPT ou o Claude, são como chefes de cozinha de classe mundial. Eles são mestres em cozinhar pratos complexos com ingredientes que conhecem muito bem, como tomate, queijo e massa (que seriam linguagens de programação populares como Python ou C++). Eles podem criar receitas incríveis com esses ingredientes porque já leram milhões de livros de culinária sobre eles.

Agora, imagine que surge um novo ingrediente, totalmente desconhecido, chamado "Cangjie". Ele é a base de um novo sistema operacional (HarmonyOS) e promete ser incrível, mas ninguém no mundo já escreveu um livro de receitas sobre ele. Não há milhões de receitas na internet.

É aqui que entra o CANGJIEBENCH, o tema deste artigo.

O Problema: O Chef sem o Livro de Receitas

Os pesquisadores queriam saber: "Se dermos a esses chefs de cozinha uma receita escrita em português (Python) e pedirmos que eles a cozinhem usando o ingrediente novo Cangjie, eles conseguirão?"

O problema é que, sem um livro de receitas (dados de treinamento), os chefs tendem a:

  1. Inventar ingredientes que não existem (erros de sintaxe).
  2. Tentar usar o tomate de um jeito que não funciona com o Cangjie.
  3. Simplesmente falhar.

A Solução: O "CANGJIEBENCH" (O Teste de Cozinha)

Os autores criaram um teste de culinária chamado CANGJIEBENCH. Em vez de tentar encontrar receitas na internet (o que é impossível, pois o Cangjie é novo demais), eles pegaram receitas famosas e testadas (do banco de dados HumanEval e ClassEval) e traduziram manualmente para o Cangjie.

É como se eles tivessem pegado 248 pratos famosos, escrito a versão original em português e depois, com muito cuidado, reescrito cada passo para usar o ingrediente Cangjie, garantindo que a receita fosse correta. Isso cria um "campo de treinamento" limpo, onde não há trapaça (os modelos não podem ter "decorado" a resposta antes).

O teste tem duas partes:

  1. Do Texto para o Código: "Faça um bolo de chocolate" (descrição em texto) -> O chef tenta escrever a receita em Cangjie.
  2. Do Código para o Código: "Aqui está a receita do bolo em português, agora escreva-a em Cangjie" (tradução).

O Experimento: Como os Chefes Tentaram

Os pesquisadores testaram quatro estratégias diferentes para ajudar os chefs a lidar com esse ingrediente novo:

  1. Geração Direta (O "Chute"):

    • A analogia: Você pede ao chef: "Faça um bolo com Cangjie!" e espera que ele adivinhe.
    • Resultado: Foi um desastre. Quase nada funcionou. O chef não sabia nem como segurar a colher (sintaxe).
  2. Geração com Restrições de Sintaxe (O "Guia Rápido"):

    • A analogia: Você entrega ao chef um pequeno cartão com as regras básicas: "No Cangjie, o açúcar vai antes da farinha, e use este tipo de panela".
    • Resultado: Surpreendente! Foi a melhor relação entre esforço e resultado. O chef já sabia cozinhar (lógica), só precisava saber as regras do novo ingrediente. Com esse cartão, a qualidade dos pratos subiu muito.
  3. RAG (Recuperando Informações - O "Google"):

    • A analogia: Você diz ao chef: "Vou te dar um monte de livros de culinária antigos e páginas da internet sobre Cangjie. Procure o que precisa e use".
    • Resultado: Funcionou um pouco melhor do que o chute, mas foi confuso. O chef gastava muito tempo lendo livros ruins ou procurando a informação errada.
  4. Agentes (O "Estagiário Investigador"):

    • A analogia: Você dá ao chef um computador e permissão para pesquisar. O chef pode ler o manual, tentar cozinhar, ver que errou, pesquisar de novo, corrigir e tentar de novo, sozinho.
    • Resultado: Foi o que produziu os melhores pratos (mais precisos). O chef aprendeu no processo.
    • O porém: Custou uma fortuna em tempo e energia (tokens). Foi como se o chef tivesse passado 10 horas pesquisando para fazer um bolo que o "Guia Rápido" faria em 10 minutos.

A Grande Descoberta: A "Maldição da Tradução"

Uma descoberta curiosa foi que, às vezes, traduzir uma receita existente (de Python para Cangjie) foi pior do que criar uma do zero (do texto para o código).

  • Por que? O chef ficou "viciado" na forma como a receita estava escrita em português. Ele tentou copiar a estrutura do português para o Cangjie, o que estragou o prato. Quando ele teve que criar do zero (do texto), ele foi mais criativo e seguiu as regras do Cangjie com mais liberdade.

Conclusão Simples

Este estudo nos ensina duas coisas importantes para o futuro da Inteligência Artificial:

  1. Não precisamos de milhões de livros para ensinar uma IA uma nova linguagem. Se a IA já é inteligente (sabe a lógica), basta dar a ela um guia de regras simples (o cartão de sintaxe) e ela aprende rápido e barato.
  2. Às vezes, ter o código original atrapalha. Quando tentamos traduzir código de uma linguagem antiga para uma nova, a IA pode ficar presa nos hábitos da antiga. Às vezes, é melhor pedir para ela criar a lógica do zero na nova linguagem.

Em resumo: O CANGJIEBENCH é a prova de que, para ensinar uma IA uma nova linguagem de programação, não é necessário reescrever todo o cérebro dela. Basta dar a ela as regras do jogo e deixá-la brincar.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →