Each language version is independently generated for its own context, not a direct translation.
Imagine que os Modelos de Linguagem (LLMs), como o ChatGPT ou o Claude, são como chefes de cozinha de classe mundial. Eles são mestres em cozinhar pratos complexos com ingredientes que conhecem muito bem, como tomate, queijo e massa (que seriam linguagens de programação populares como Python ou C++). Eles podem criar receitas incríveis com esses ingredientes porque já leram milhões de livros de culinária sobre eles.
Agora, imagine que surge um novo ingrediente, totalmente desconhecido, chamado "Cangjie". Ele é a base de um novo sistema operacional (HarmonyOS) e promete ser incrível, mas ninguém no mundo já escreveu um livro de receitas sobre ele. Não há milhões de receitas na internet.
É aqui que entra o CANGJIEBENCH, o tema deste artigo.
O Problema: O Chef sem o Livro de Receitas
Os pesquisadores queriam saber: "Se dermos a esses chefs de cozinha uma receita escrita em português (Python) e pedirmos que eles a cozinhem usando o ingrediente novo Cangjie, eles conseguirão?"
O problema é que, sem um livro de receitas (dados de treinamento), os chefs tendem a:
- Inventar ingredientes que não existem (erros de sintaxe).
- Tentar usar o tomate de um jeito que não funciona com o Cangjie.
- Simplesmente falhar.
A Solução: O "CANGJIEBENCH" (O Teste de Cozinha)
Os autores criaram um teste de culinária chamado CANGJIEBENCH. Em vez de tentar encontrar receitas na internet (o que é impossível, pois o Cangjie é novo demais), eles pegaram receitas famosas e testadas (do banco de dados HumanEval e ClassEval) e traduziram manualmente para o Cangjie.
É como se eles tivessem pegado 248 pratos famosos, escrito a versão original em português e depois, com muito cuidado, reescrito cada passo para usar o ingrediente Cangjie, garantindo que a receita fosse correta. Isso cria um "campo de treinamento" limpo, onde não há trapaça (os modelos não podem ter "decorado" a resposta antes).
O teste tem duas partes:
- Do Texto para o Código: "Faça um bolo de chocolate" (descrição em texto) -> O chef tenta escrever a receita em Cangjie.
- Do Código para o Código: "Aqui está a receita do bolo em português, agora escreva-a em Cangjie" (tradução).
O Experimento: Como os Chefes Tentaram
Os pesquisadores testaram quatro estratégias diferentes para ajudar os chefs a lidar com esse ingrediente novo:
Geração Direta (O "Chute"):
- A analogia: Você pede ao chef: "Faça um bolo com Cangjie!" e espera que ele adivinhe.
- Resultado: Foi um desastre. Quase nada funcionou. O chef não sabia nem como segurar a colher (sintaxe).
Geração com Restrições de Sintaxe (O "Guia Rápido"):
- A analogia: Você entrega ao chef um pequeno cartão com as regras básicas: "No Cangjie, o açúcar vai antes da farinha, e use este tipo de panela".
- Resultado: Surpreendente! Foi a melhor relação entre esforço e resultado. O chef já sabia cozinhar (lógica), só precisava saber as regras do novo ingrediente. Com esse cartão, a qualidade dos pratos subiu muito.
RAG (Recuperando Informações - O "Google"):
- A analogia: Você diz ao chef: "Vou te dar um monte de livros de culinária antigos e páginas da internet sobre Cangjie. Procure o que precisa e use".
- Resultado: Funcionou um pouco melhor do que o chute, mas foi confuso. O chef gastava muito tempo lendo livros ruins ou procurando a informação errada.
Agentes (O "Estagiário Investigador"):
- A analogia: Você dá ao chef um computador e permissão para pesquisar. O chef pode ler o manual, tentar cozinhar, ver que errou, pesquisar de novo, corrigir e tentar de novo, sozinho.
- Resultado: Foi o que produziu os melhores pratos (mais precisos). O chef aprendeu no processo.
- O porém: Custou uma fortuna em tempo e energia (tokens). Foi como se o chef tivesse passado 10 horas pesquisando para fazer um bolo que o "Guia Rápido" faria em 10 minutos.
A Grande Descoberta: A "Maldição da Tradução"
Uma descoberta curiosa foi que, às vezes, traduzir uma receita existente (de Python para Cangjie) foi pior do que criar uma do zero (do texto para o código).
- Por que? O chef ficou "viciado" na forma como a receita estava escrita em português. Ele tentou copiar a estrutura do português para o Cangjie, o que estragou o prato. Quando ele teve que criar do zero (do texto), ele foi mais criativo e seguiu as regras do Cangjie com mais liberdade.
Conclusão Simples
Este estudo nos ensina duas coisas importantes para o futuro da Inteligência Artificial:
- Não precisamos de milhões de livros para ensinar uma IA uma nova linguagem. Se a IA já é inteligente (sabe a lógica), basta dar a ela um guia de regras simples (o cartão de sintaxe) e ela aprende rápido e barato.
- Às vezes, ter o código original atrapalha. Quando tentamos traduzir código de uma linguagem antiga para uma nova, a IA pode ficar presa nos hábitos da antiga. Às vezes, é melhor pedir para ela criar a lógica do zero na nova linguagem.
Em resumo: O CANGJIEBENCH é a prova de que, para ensinar uma IA uma nova linguagem de programação, não é necessário reescrever todo o cérebro dela. Basta dar a ela as regras do jogo e deixá-la brincar.
Receba artigos como este na sua caixa de entrada
Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.