Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Este artículo presenta Nsanku, una evaluación integral que mide el rendimiento de traducción en cero disparos de 19 modelos de lenguaje grandes en 43 lenguas ghanesas, revelando que, aunque modelos destacados como Gemini-2.5-flash obtienen puntuaciones moderadas, ningún modelo actual demuestra simultáneamente alto rendimiento y consistencia, lo que indica que aún no son fiablemente utilizables para traducción a gran escala en estas lenguas.

Autores originales: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, A
Publicado 2026-05-07
📖 6 min de lectura🧠 Análisis profundo

Autores originales: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, Ama Branoa Banful, Lucas Woedem Kpatah, Saani Mustapha Deishini, John Ayernor

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

El Informe Nsanku: Probando Traductores de IA en los Idiomas de Ghana

Imagina que tienes una biblioteca gigante de 19 "super-cerebros" (modelos de IA) diferentes. Algunos son propiedad de gigantes tecnológicos masivos, y otros son proyectos de código abierto construidos por comunidades. Quieres saber: ¿Puede alguno de estos cerebros traducir del inglés a las 43 lenguas diferentes habladas en Ghana sin haber sido enseñado previamente en esas lenguas específicas?

Esto es exactamente lo que hizo el artículo Nsanku. El nombre "Nsanku" proviene del idioma akan y significa "instrumentos musicales". Así como una banda necesita muchos instrumentos diferentes para hacer música, este proyecto necesitó muchos modelos de IA diferentes para probar qué tan bien manejan la diversa "música" de las lenguas ghanesas.

Aquí está la historia de lo que encontraron, explicada de manera sencilla.


1. La Configuración: Una Prueba Estricta de "Cero Disparos"

Piensa en estos modelos de IA como estudiantes que rinden un examen sorpresa.

  • La Regla: No se les permitió estudiar con antelación. No podían ser "ajustados finamente" (re-entrenados) con datos de Ghana. Tenían que depender enteramente de lo que ya sabían de su entrenamiento general. Esto se llama una prueba de cero disparos (zero-shot).
  • El Material del Examen: Las preguntas del examen eran 300 oraciones de la Biblia, traducidas a 43 lenguas diferentes de Ghana. Los investigadores usaron la Biblia porque es uno de los pocos lugares donde se pueden encontrar versiones escritas de casi todas estas lenguas en un solo lugar.
  • La Calificación: Usaron dos sistemas de calificación diferentes:
    • BLEU: Como un maestro estricto que verifica si el estudiante usó exactamente las palabras correctas.
    • chrF: Como un maestro más flexible que verifica si el estudiante captó el sonido general y la estructura de la oración correctamente, incluso si las palabras exactas fueron ligeramente diferentes.

2. Los Resultados: ¿Quién Aprobó? ¿Quién Reprobó?

Los "Estudiantes Estrella" (Modelos Propietarios)

Tres modelos de IA de renombre de gigantes tecnológicos (Google, Anthropic y OpenAI) salieron en la cima.

  • Gemini-2.5-flash fue el orador de la clase con la puntuación más alta.
  • Claude-sonnet-4-5 y GPT-4.1 quedaron muy cerca.
  • La Analogía: Estos son como los estudiantes que fueron a las escuelas privadas más caras. Han visto muchos datos y pueden adivinar las respuestas mejor que nadie más, pero aún no son perfectos.

Los "Estudiantes de la Comunidad" (Modelos de Peso Abierto)

El resto de los modelos eran de código abierto (libres de usar y modificar).

  • El mejor de este grupo fue kimi-k2-instruct, pero aún obtuvo una puntuación significativamente más baja que los "Estudiantes Estrella".
  • La Brecha: Hay una brecha clara entre los modelos privados y costosos y los gratuitos de la comunidad. Los modelos privados son actualmente mucho mejores entendiendo estas lenguas.

El Factor "Dificultad del Idioma"

No todas las lenguas fueron igualmente fáciles de traducir.

  • Siwu fue la lengua "más fácil" para que la IA la tradujera (puntuación más alta).
  • Nkonya fue la "más difícil" (puntuación más baja).
  • El Giro: Sorprendentemente, las lenguas más habladas (como twi) no siempre obtuvieron las puntuaciones más altas. A veces, las lenguas con menos hablantes obtuvieron puntuaciones más altas. ¿Por qué? Porque la traducción bíblica específica utilizada para esas lenguas era más clara y completa que las de las lenguas populares. Es como tener un mapa más claro para un pequeño pueblo que para una gran ciudad.

3. El Gran Problema: El Problema del "Amigo Inconfiable"

Este es el hallazgo más crítico del artículo. Los investigadores no solo miraron la puntuación promedio; miraron la consistencia.

  • La Analogía: Imagina que tienes un amigo que es genial cocinando comida italiana pero terrible cocinando comida tailandesa. Si le pides que cocine una comida al azar, nunca sabrás si obtendrás una cena deliciosa o un desastre quemado.
  • El Hallazgo: Ningún modelo de IA fue simultáneamente "Alto Rendimiento" Y "Consistente".
    • Los mejores modelos fueron "Alto Rendimiento pero Inconsistentes". Podían traducir Siwu perfectamente pero fallar miserablemente en Nkonya.
    • Los modelos consistentes fueron "Consistentes pero Promedio". Daban el mismo resultado mediocre para cada lengua, nunca fallando gravemente pero tampoco haciéndolo bien.
    • El Cuadrante de los "Líderes": Los investigadores dibujaron un gráfico con cuatro esquinas. La esquina superior derecha es la zona de "Líderes" (Alta Calidad + Alta Consistencia). Ningún modelo y ninguna lengua terminó en esta zona.

4. Qué Significa Esto (Según el Artículo)

El artículo concluye que, aunque estos modelos de IA son impresionantes, aún no son lo suficientemente confiables para ser utilizados en tareas del mundo real (como traducir documentos gubernamentales, consejos médicos o noticias) para las lenguas ghanesas.

  • El Límite "Escritural": La prueba se realizó usando versículos bíblicos. Los autores advierten que estos modelos podrían desempeñarse aún peor en conversaciones cotidianas, noticias o textos legales porque no han visto esos tipos de palabras en su entrenamiento.
  • El Problema de los "Datos": Las puntuaciones bajas no se deben a que las lenguas sean "difíciles" o "rotas". Es porque la IA no ha visto suficientes ejemplos de ellas. Es como intentar aprender un idioma leyendo solo un libro; podrías captar la idea general, pero te perderás los matices.

Resumen

El proyecto Nsanku construyó una gran tabla de puntuaciones para probar 19 modelos de IA en 43 lenguas ghanesas.

  1. Los modelos de Big Tech son actualmente los mejores, pero los modelos gratuitos se están poniendo al día.
  2. La calificación basada en caracteres (chrF) es una mejor manera de juzgar estas lenguas que la calificación palabra por palabra (BLEU).
  3. Lo más importante: Ninguna IA es actualmente lo suficientemente confiable para ser confiada con estas lenguas. Son como un estudiante que a veces obtiene un A+ y a veces obtiene una F, dependiendo de la lengua específica. Hasta que veamos un modelo que sea consistentemente bueno, no podemos confiar plenamente en ellos para tareas importantes.

El artículo ha hecho públicos todos sus datos y código para que los investigadores sigan probando y mejorando estos modelos, con la esperanza de llenar eventualmente ese cuadrante de "Líderes".

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →