CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

El artículo presenta CangjieBench, un nuevo benchmark libre de contaminación diseñado para evaluar el rendimiento de los modelos de lenguaje grandes en el lenguaje de programación general de bajo recurso Cangjie, revelando que la generación con restricciones sintácticas ofrece el mejor equilibrio entre precisión y costo, mientras que las tareas de traducción de código a código sufren de una transferencia negativa.

Junhang Cheng, Fang Liu, Jia Li, Chengru Wu, Nanxiang Jiang, Li Zhang

Publicado 2026-03-17
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los Modelos de Lenguaje Grandes (LLMs), como los que usan para chatear o escribir código, son como chefes de cocina extremadamente talentosos.

Estos chefs han cocinado millones de platos de cocina italiana, francesa y china (que serían lenguajes como Python o C++). Conocen los ingredientes, las recetas y los trucos a la perfección. Pero, ¿qué pasa si de repente les pides que cocinen un plato de una cocina nueva, desconocida y con muy pocos libros de recetas disponibles?

Esa es la historia de este paper sobre CANGJIEBENCH.

Aquí te lo explico paso a paso, con analogías sencillas:

1. El Problema: El Chef y el Nuevo Libro de Recetas

El lenguaje Cangjie es como un nuevo estilo de cocina creado por Huawei para sus dispositivos (como teléfonos y relojes inteligentes). Es un lenguaje de programación "general", lo que significa que sirve para todo, no solo para una cosa específica.

El problema es que es muy nuevo y tiene pocos datos. Los chefs (las IAs) no han cocinado con él antes. Si les pides que cocinen un plato en Cangjie, suelen fallar porque no conocen las reglas básicas (la sintaxis), aunque entiendan perfectamente la lógica de la receta.

2. La Solución: CANGJIEBENCH (El Nuevo Desafío de Cocina)

Los autores crearon un examen de cocina llamado CANGJIEBENCH.

  • ¿De dónde sacaron las recetas? No buscaron en internet (porque no hay muchas). En su lugar, tomaron recetas famosas y probadas en cocina italiana (Python) y las tradujeron manualmente al nuevo estilo Cangjie.
  • ¿Por qué hacerlo así? Para asegurarse de que el examen sea limpio. Si los chefs hubieran visto estas recetas en internet antes, estarían "haciendo trampa" (memorizando). Al traducirlas manualmente, el examen prueba si el chef realmente puede aprender el nuevo estilo al instante.
  • El examen tiene dos partes:
    1. Texto a Código: "Dime qué quieres cocinar" -> El chef escribe el código.
    2. Código a Código: "Aquí tienes la receta en italiano, tradúcela al Cangjie" -> El chef traduce.

3. Los Experimentos: ¿Cómo le va a los chefs?

Los investigadores probaron cuatro formas de ayudar a estos chefs a cocinar en Cangjie:

  • A. Generación Directa (El Chef a ciegas):
    Le das la receta y el chef intenta cocinar sin ayuda.

    • Resultado: Desastre. La mayoría de los platos salen quemados o sin forma. El chef no sabe ni cómo sostener el cuchillo (la sintaxis) en este nuevo idioma.
  • B. Generación con Restricciones de Sintaxis (El Chef con una "Hoja de Trucos"):
    Le das al chef una hoja pequeña y clara con las reglas básicas de Cangjie (ej: "los números van así", "los bucles se escriben así").

    • Resultado: ¡Milagro! La calidad mejora muchísimo. El chef ya sabe la lógica, solo necesitaba recordar las reglas gramaticales. Es la opción más eficiente: buena comida, poco esfuerzo.
  • C. RAG (El Chef con una Biblioteca):
    Le das al chef acceso a una biblioteca gigante de libros de Cangjie para que busque información mientras cocina.

    • Resultado: Mejora un poco, pero no tanto como la "Hoja de Trucos". A veces el chef se pierde buscando en los libros y no encuentra lo que necesita rápido.
  • D. Agentes (El Chef con un Ayudante de Investigación):
    Le das al chef un ayudante que puede buscar en la biblioteca, leer, escribir notas y corregir errores paso a paso.

    • Resultado: La mejor comida de todas. El plato sale perfecto. Pero... ¡cuesta una fortuna! El ayudante lee miles de páginas de libros, gasta mucho tiempo y energía (tokens). Es como contratar a un equipo entero de investigadores para cocinar una sola tortilla.

4. La Sorpresa: La Traducción es más difícil que la Invención

Encontraron algo curioso:

  • Cuando les pedían crear el código desde cero (Texto a Código), los chefs lo hacían mejor.
  • Cuando les pedían traducir una receta de italiano a Cangjie (Código a Código), lo hacían peor.
  • ¿Por qué? Porque el chef se "enamora" de la receta original. Intenta copiar la estructura del italiano palabra por palabra, en lugar de pensar en cómo se hace en Cangjie. Es como intentar hablar español usando la gramática del chino; suena raro y no funciona.

5. Conclusión: ¿Qué aprendimos?

Este estudio nos dice que:

  1. Las IAs actuales son muy inteligentes en lógica, pero débiles en gramática cuando se trata de lenguajes nuevos.
  2. No hace falta reentrenar a la IA (que es caro y lento). Solo darle reglas claras y concisas (la "Hoja de Trucos") es la forma más rápida y barata de que aprenda un nuevo lenguaje.
  3. Traducir código de un lenguaje conocido a uno nuevo es más difícil de lo que parece, porque la IA tiende a copiar los "vicios" del lenguaje antiguo.

En resumen: Si quieres que una IA aprenda un lenguaje de programación nuevo y raro, no le des un diccionario gigante ni la dejes sola. Dale una pequeña lista de reglas gramaticales y verás cómo cocina de maravilla.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →