Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language

Deze studie toont aan dat Indic-gebaseerde BERT-modellen, met name MuRIL-large, de beste prestaties leveren voor de onderwerpsclassificatie van Nepalese zinnen, met een F1-score van 90,60%.

Nischal Karki, Bipesh Subedi, Prakash Poudyal, Rupak Raj Ghimire, Bal Krishna Bal

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Grote Nepalese Woordenwedstrijd: Wie is de slimste computer?

Stel je voor dat je een enorme bibliotheek hebt met boeken in het Nepalees, maar niemand weet hoe je ze moet ordenen. Je wilt dat een slimme robot deze boeken leest en ze in de juiste kasten legt: "Landbouw", "Gezondheid", "Onderwijs", "Cultuur" of "Algemeen". Dit is precies wat deze onderzoekers van de Kathmandu University hebben geprobeerd te doen.

Ze hebben een wedstrijd georganiseerd tussen tien verschillende "slimme robots" (in de computerwereld heet dit BERT-modellen). Deze robots zijn allemaal getraind om taal te begrijpen, maar ze hebben allemaal een heel verschillende achtergrond.

De Deelnemers: Een mix van talen en ervaringen

Om de wedstrijd spannend te maken, hebben ze verschillende soorten robots uitgenodigd:

  1. De Wereldreizigers (Meertalige modellen): Denk aan robots die in 100 verschillende landen hebben gewoond en 100 talen spreken. Ze zijn breed opgeleid, maar misschien niet diep genoeg in één specifieke taal.
    • Voorbeelden: mBERT, XLM-R.
  2. De Buurmannen (Indische modellen): Dit zijn robots die zijn opgeleid op de talen van het Indische subcontinent. Omdat Nepalees en Hindi of andere Indische talen familie zijn (net als Nederlands en Fries), begrijpen ze de grammatica en de klanken van Nepalees heel goed.
    • Voorbeelden: MuRIL, DevBERT, HindiBERT.
  3. De Lokale Expert (Nepalees model): Een robot die alleen Nepalees heeft gelezen. Hij kent de subtiele nuances van de taal als geen ander, alsof hij zijn hele leven in een dorpje in Nepal heeft gewoond.
    • Voorbeeld: NepBERTa.
  4. De Engelstalige: Een robot die alleen Engels spreekt en probeert Nepalees te raden. (Niet echt een goede kandidaat voor deze wedstrijd).

De Wedstrijd: De "Topic Classification"

De robots kregen 25.000 zinnen te lezen. Het doel was simpel: lees de zin en zeg welke categorie het is.

  • Voorbeeld: "De boer plant rijst." -> Categorie: Landbouw.
  • Voorbeeld: "Het ziekenhuis heeft nieuwe medicijnen." -> Categorie: Gezondheid.

De onderzoekers keken niet alleen naar wie de meeste juiste antwoorden gaf, maar ook hoe snel ze waren en hoeveel energie (rekenkracht) ze nodig hadden.

De Winnaars: Wat bleek eruit?

Het resultaat was verrassend, maar ook logisch:

  • De Gouden Medaille (MuRIL-large): De winnaar was de "Indische Buurman" genaamd MuRIL-large. Hij scoorde een fantastische 90,60% goed.
    • De analogie: Stel je voor dat MuRIL een meesterkok is die al jaren in de keuken van heel Zuid-Azië heeft gewerkt. Hij kent de smaken van Nepalees eten (taal) perfect, omdat ze lijken op de smaken van zijn buren. Hij wist precies welke woorden bij welk onderwerp hoorden.
  • De Zilveren Medaille (NepBERTa): De "Lokale Expert" deed het ook heel goed (88,26%), maar hij was veel sneller en had minder energie nodig.
    • De analogie: NepBERTa is als een lokale dorpsbewoner die de taal perfect spreekt, maar niet zo'n enorme bibliotheek heeft als MuRIL. Toch is hij zo slim dat hij bijna net zo goed presteert, en dat met minder moeite.
  • De Teleurstelling: De robots die alleen Engels spraken of die te breed waren opgeleid, deden het iets minder goed. Ze misten de fijne nuances van de Nepalese cultuur en grammatica.

Waarom is dit belangrijk?

Vroeger was het heel moeilijk om computers Nepalees te laten begrijpen, omdat er niet genoeg "leermateriaal" (data) beschikbaar was. Het is alsof je iemand wilt leren zwemmen, maar er is geen zwembad.

Deze studie laat zien dat je twee wegen kunt bewandelen:

  1. Je bouwt een enorme, krachtige robot die veel Indische talen kent (zoals MuRIL).
  2. Of je bouwt een slimme, efficiënte robot die zich puur op Nepalees richt (zoals NepBERTa).

Beide werken goed! Dit is een enorme stap vooruit. Het betekent dat in de toekomst Nepalese apps, nieuwslezers en zoekmachines veel slimmer zullen worden.

Wat komt er nog?

De onderzoekers zeggen: "Dit is pas het begin." Ze hebben nu getest op losse zinnen. In de toekomst willen ze testen of deze robots hele artikelen kunnen begrijpen, net zoals een mens een heel verhaal leest en de hoofdpunten eruit haalt.

Kortom: Deze paper is een bewijs dat computers Nepalees eindelijk serieus gaan begrijpen, dankzij slimme robots die ofwel de "buurman" zijn, ofwel de "lokale expert". En dat is goed nieuws voor iedereen die Nepalees spreekt!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →