Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Dit artikel introduceert Nsanku, een uitgebreide benchmark die de zero-shot vertaalprestaties van 19 grote taalmodellen evalueert over 43 Ghanaanse talen, en onthult dat hoewel toptalenmodellen zoals Gemini-2.5-flash gemiddelde scores behalen, geen enkel huidig model tegelijkertijd hoge prestaties en consistentie vertoont, wat aangeeft dat ze nog niet betrouwbaar inzetbaar zijn voor grootschalige vertaling in deze talen.

Oorspronkelijke auteurs: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, A
Gepubliceerd 2026-05-07
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, Ama Branoa Banful, Lucas Woedem Kpatah, Saani Mustapha Deishini, John Ayernor

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Het Nsanku-rapport: AI-vertalers testen op de talen van Ghana

Stel je een gigantische bibliotheek voor met 19 verschillende "superhersenen" (AI-modellen). Sommige zijn eigendom van enorme techreuzen, andere zijn open-sourceprojecten die door gemeenschappen zijn gebouwd. Je wilt weten: Kan een van deze hersenen Engels vertalen naar de 43 verschillende talen die in Ghana worden gesproken, zonder dat ze deze specifieke talen ooit eerder hebben geleerd?

Dit is precies wat het Nsanku-papier deed. De naam "Nsanku" komt uit de Akan-taal en betekent "muziekinstrumenten". Net zoals een band veel verschillende instrumenten nodig heeft om muziek te maken, had dit project veel verschillende AI-modellen nodig om te testen hoe goed ze de diverse "muziek" van de Ghanese talen aankunnen.

Hier is het verhaal van wat ze ontdekten, eenvoudig uitgelegd.


1. De Opzet: Een Strikte "Zero-Shot"-Test

Stel je deze AI-modellen voor als studenten die een onverwacht examen moeten afleggen.

  • De Regel: Ze mochten van tevoren niet studeren. Ze konden niet worden "fine-tuned" (opnieuw getraind) op Ghanese data. Ze moesten volledig vertrouwen op wat ze al wisten uit hun algemene training. Dit heet een zero-shot-test.
  • Het Toetsmateriaal: De examenvragen waren 300 zinnen uit de Bijbel, vertaald naar 43 verschillende Ghanese talen. De onderzoekers gebruikten de Bijbel omdat dit een van de weinige plaatsen is waar je geschreven versies van bijna al deze talen op één plek kunt vinden.
  • Het Cijfergeven: Ze gebruikten twee verschillende cijfersystemen:
    • BLEU: Net als een strenge leraar die controleert of de student exact de juiste woorden heeft gebruikt.
    • chrF: Net als een flexibeler leraar die controleert of de student de algemene klank en structuur van de zin goed heeft, zelfs als de exacte woorden iets afwijken.

2. De Resultaten: Wie Haalde het? Wie Miste het?

De "Sterke Studenten" (Propriëtaire Modellen)

Drie grote AI-modellen van techreuzen (Google, Anthropic en OpenAI) staken bovenaan.

  • Gemini-2.5-flash was de uitblinker van de klas met de hoogste score.
  • Claude-sonnet-4-5 en GPT-4.1 volgden op korte afstand.
  • De Analogie: Dit zijn als de studenten die naar de duurste particuliere scholen zijn gegaan. Ze hebben veel data gezien en kunnen de antwoorden beter raden dan wie dan ook, maar ze zijn nog steeds niet perfect.

De "Gemeenschapsstudenten" (Open-Weight Modellen)

De rest van de modellen waren open-source (gratis te gebruiken en aan te passen).

  • De beste van deze groep was kimi-k2-instruct, maar het scoorde nog steeds aanzienlijk lager dan de "Sterke Studenten".
  • De Kloof: Er is een duidelijke kloof tussen de dure, particuliere modellen en de gratis, gemeenschappelijke modellen. De particuliere modellen zijn momenteel veel beter in het begrijpen van deze talen.

De "Taalmoeilijkheid"-Factor

Niet alle talen waren even makkelijk te vertalen.

  • Siwu was de "makkelijkste" taal voor de AI om te vertalen (hoogste score).
  • Nkonya was de "moeilijkste" (laagste score).
  • De Twist: Verrassend genoeg kregen de meest gesproken talen (zoals Twi) niet altijd de hoogste scores. Soms kregen talen met minder sprekers hogere scores. Waarom? Omdat de specifieke Bijbelvertaling die voor die talen werd gebruikt, duidelijker en vollediger was dan die voor de populaire talen. Het is alsof je een duidelijker kaart hebt voor een klein dorp dan voor een grote stad.

3. Het Grote Probleem: Het "Onbetrouwbare Vriend"-Probleem

Dit is de belangrijkste bevinding van het papier. De onderzoekers keken niet alleen naar het gemiddelde cijfer; ze keken naar consistentie.

  • De Analogie: Stel je een vriend voor die geweldig is in het koken van Italiaans eten, maar vreselijk in het koken van Thais eten. Als je ze vraagt een willekeurige maaltijd te koken, weet je nooit of je een heerlijke maaltijd of een verbrande rommel krijgt.
  • De Bevinding: Geen enkel AI-model was zowel "Hoog Presterend" ALS "Consistent".
    • De beste modellen waren "Hoog Presterend maar Inconsistent". Ze vertaalden Siwu misschien perfect, maar faalden erbarmelijk op Nkonya.
    • De consistente modellen waren "Consistent maar Gemiddeld". Ze gaven voor elke taal hetzelfde middelmatige resultaat, faalden nooit ernstig, maar deden het ook nooit goed.
    • Het "Leiders"-Kwadrant: De onderzoekers tekenden een grafiek met vier hoeken. De rechterbovenhoek is de "Leiders"-zone (Hoge Kwaliteit + Hoge Consistentie). Geen enkel model en geen enkele taal eindigde in deze zone.

4. Wat Dit Betekent (Volgens het Papier)

Het papier concludeert dat hoewel deze AI-modellen indrukwekkend zijn, ze nog niet betrouwbaar genoeg zijn om te worden gebruikt voor real-world taken (zoals het vertalen van overheidsdocumenten, medisch advies of nieuws) voor Ghanese talen.

  • De "Schriftelijke" Limiet: De test werd uitgevoerd met Bijbelverzen. De auteurs waarschuwen dat deze modellen misschien nog slechter presteren op alledaags gesprek, nieuws of juridische tekst, omdat ze die soorten woorden niet in hun training hebben gezien.
  • Het "Data"-Probleem: De lage scores zijn niet omdat de talen "moeilijk" of "gebroken" zijn. Het is omdat de AI niet genoeg voorbeelden van hen heeft gezien. Het is alsof je een taal probeert te leren door slechts één boek te lezen; je krijgt misschien de essentie, maar je mist de nuances.

Samenvatting

Het Nsanku-project bouwde een gigantisch scorebord om 19 AI-modellen te testen op 43 Ghanese talen.

  1. Grote Tech-modellen zijn momenteel de besten, maar gratis modellen halen hen in.
  2. Karakter-gebaseerde beoordeling (chrF) is een betere manier om deze talen te beoordelen dan woord-voor-woord beoordeling (BLEU).
  3. Meest belangrijk: Geen enkele AI is momenteel betrouwbaar genoeg om met deze talen te worden vertrouwd. Ze zijn als een student die soms een A+ haalt en soms een F, afhankelijk van de specifieke taal. Totdat we een model zien dat consequent goed is, kunnen we ze niet volledig vertrouwen voor belangrijke taken.

Het papier heeft alle data en code openbaar gemaakt zodat onderzoekers deze modellen blijven testen en verbeteren, in de hoop om uiteindelijk dat "Leiders"-kwadrant te vullen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →