Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Dit paper presenteert een multimodaal groot taalmodel voor het Baskisch dat, ondanks het gebruik van een niet-Baskisch aangepaste backbone, sterke prestaties levert met slechts een klein percentage Baskische multimodale trainingsdata en zo een weg vrijmaakt voor de ontwikkeling van dergelijke modellen voor andere taalarme talen.

Lukas Arana, Julen Etxaniz, Ander Salaberria, Gorka Azkune

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot wilt bouwen die niet alleen tekst kan lezen, maar ook plaatjes kan "zien" en begrijpen. Dit noemen we een Multimodaal Groot Taalmodel (MLLM). Denk aan een super-intelligente assistent die je een foto van een hond toont en vraagt: "Wat doet deze hond?" en hij antwoordt: "Hij rent achter een bal aan."

De meeste van deze slimme robots zijn echter getraind op Engelse data. Ze spreken Engels als hun moedertaal. Voor talen die minder vaak op internet voorkomen, zoals het Baskisch (gesproken in een deel van Spanje en Frankrijk), is het alsof je een robot probeert te leren een taal te spreken waar er maar heel weinig boeken en foto's van bestaan.

De auteurs van dit paper (Lukas, Julen, Ander en Gorka) wilden een slimme robot bouwen die Baskisch spreekt en plaatjes begrijpt. Hier is hoe ze dat deden, vertaald naar een simpel verhaal:

1. Het probleem: De "Baskische Bibliotheek" is leeg

Om een robot slim te maken, heb je duizenden voorbeelden nodig (plaatjes met bijbehorende tekst). Voor het Engels is er een enorme bibliotheek vol met deze voorbeelden. Voor het Baskisch is die bibliotheek bijna leeg. Er zijn maar heel weinig foto's met Baskische bijschriften.

2. De oplossing: Vertalen en Mixen

De onderzoekers hadden een slim idee. In plaats van te wachten tot er vanzelf Baskische foto's opduiken, hebben ze:

  • Bestaande Engelse foto's genomen en de bijschriften vertaald naar het Baskisch.
  • Een mix gemaakt: een beetje Baskisch en veel Engels.

De grote ontdekking (Analogie: Het Baking van een Cake):
Stel je voor dat je een cake wilt bakken die in het Baskisch smaakt. Je zou denken dat je 100% Baskische ingrediënten nodig hebt. Maar de onderzoekers ontdekten iets verrassends:

  • Je hebt niet 100% Baskische ingrediënten nodig.
  • Als je 20% Baskische ingrediënten toevoegt aan een basis van Engels, smaakt de cake al perfect voor Baskische proevers!
  • Zelfs als je alleen maar Engelse foto's gebruikt, maar de tekst in het Baskisch uitlegt, kan de robot de Baskische taal nog steeds goed leren begrijpen.

3. De Motor: Is een "Baskische Motor" nodig?

Om zo'n robot te bouwen, heb je een "motor" nodig (een taalmodel).

  • Optie A: Een motor die al in het Baskisch is getraind (genaamd Latxa).
  • Optie B: Een standaard Engelse motor (genaamd Llama).

De onderzoekers dachten: "Natuurlijk hebben we Optie A nodig, want die kent de taal al."
Maar hun experimenten toonden aan: Het maakt niet uit welke motor je gebruikt! Een standaard Engelse motor werkt net zo goed als een gespecialiseerde Baskische motor, zolang je maar de juiste "plaatjes en teksten" (de data) erin stopt.

4. Wat hebben ze precies gedaan?

Ze hebben voor het eerst in de geschiedenis een complete set getraind en getest voor het Baskisch:

  • Trainingsdata: Ze hebben meer dan 3 miljoen plaatjes met Baskische teksten gemaakt (door vertaling).
  • Testen: Ze hebben de robot laten testen op vragen over plaatjes (bijv. "Wat zie je op deze foto?").
  • Resultaat: De robot werkt uitstekend in het Baskisch, zelfs met weinig Baskische data.

5. Waarom is dit belangrijk?

Dit paper is als een bouwhandleiding voor de rest van de wereld.
Veel talen (zoals het Baskisch, maar ook vele andere minderheidstalen) hebben weinig digitale bronnen. Deze studie bewijst dat je niet hoeft te wachten tot die bronnen er vanzelf komen. Je kunt:

  1. Bestaande Engelse data gebruiken.
  2. Die vertalen naar je eigen taal.
  3. Een klein beetje echte data van die taal toevoegen.
  4. En klaar is je slimme robot die je eigen taal spreekt!

Kort samengevat:
Je hoeft geen enorme bibliotheek in je eigen taal te hebben om een slimme AI te bouwen. Met een beetje vertaalwerk, een goede mix van data en een standaard "motor", kun je een slimme assistent maken die je eigen taal en cultuur begrijpt. Dit opent de deur voor honderden andere talen die nu nog door de AI worden genegeerd.