SemBench: A Universal Semantic Framework for LLM Evaluation

In dit paper wordt SemBench voorgesteld, een lichtgewicht en taalonafhankelijk raamwerk dat synthetische benchmarks genereert op basis van woordenboekdefinities om de semantische competentie van grote taalmodellen efficiënt en cross-linguaal te evalueren.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

SemBench: De "Woord-Vertaal-Spelletjes" om te testen of AI echt begrijpt wat het zegt

Stel je voor dat je een nieuwe taal wilt leren. Je hebt een woordenboek bij de hand. In dat woordenboek staat bij elk woord een definitie (wat het betekent) en soms een voorbeeldzin (hoe je het gebruikt).

Nu heb je een slimme robot (een Large Language Model of LLM) die heel veel teksten heeft gelezen. Hij kan prachtige verhalen schrijven en zelfs code programmeren. Maar de vraag is: Begrijpt hij echt wat woorden betekenen, of is hij gewoon een slimme gokker die patronen nabootst?

Tot nu toe was het testen van dit "echte begrip" lastig. Mensen moesten handmatig duizenden zinnen schrijven om de robot te testen. Dat is duur, tijdrovend en werkt alleen goed voor talen als Engels of Spaans. Voor talen zoals Baskisch (een taal in Noord-Spanje/Frankrijk) was dit bijna onmogelijk.

In dit paper introduceren de auteurs SemBench. Dit is een slim, automatisch systeem dat de robot op een nieuwe manier test. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Woord-in-Context" Test

Stel, het woord "party".

  • Betekenis A: Een feestje met drank en muziek.
  • Betekenis B: Een politieke groep (zoals de Labour Party).

Een traditionele test (WiC) geeft de robot twee zinnen:

  1. "We gaan vanavond naar een party."
  2. "De party heeft nieuwe leden gekozen."

De robot moet zeggen: Zijn dit dezelfde betekenis of niet?
Het probleem is dat mensen deze zinnen handmatig moeten maken. Dat is veel werk.

2. De Oplossing: SemBench (Het "Vertaal-Spelletje")

SemBench doet het werk voor je. Het gebruikt alleen een gewoon woordenboek (met definities) en een slim algoritme. Het speelt een soort vertaal-spelletje met de robot:

  • Stap 1: Het systeem pakt een definitie uit het woordenboek (bijv. "Een politieke organisatie").
  • Stap 2: Het vraagt de robot: "Schrijf een zin waarin dit woord in deze betekenis wordt gebruikt."
    • Robot: "De party won de verkiezingen."
  • Stap 3: Het systeem pakt die nieuwe zin en vraagt de robot: "Wat is de definitie van dit woord in deze zin?"
    • Robot: "Een politieke organisatie."
  • Stap 4: De check. Het systeem vergelijkt de definitie die de robot gaf met de originele definitie uit het woordenboek.
    • Als de robot de juiste definitie terugvindt, heeft hij het goed.
    • Als de robot denkt dat het over een feestje gaat, heeft hij het fout.

De metafoor:
Stel je voor dat je een spion test. Je geeft hem een geheime code (de definitie). Hij moet een bericht sturen (de zin). Vervolgens moet hij het bericht terugontcijderen naar de code. Als hij de originele code correct terugkrijgt, weet hij dat hij de taal echt begrijpt en niet alleen maar raden.

3. Waarom is dit zo geweldig?

  • Het werkt voor elke taal: Je hebt geen menselijke experts nodig om zinnen te schrijven. Je hebt alleen een woordenboek nodig. Of dat nu Engels is (veel woordenboeken) of Baskisch (weinig woordenboeken), het werkt.
  • Het is snel en goedkoop: Omdat alles automatisch gaat, kun je duizenden testen doen in een paar seconden.
  • Het is eerlijk: De auteurs hebben getoond dat de resultaten van SemBench bijna perfect overeenkomen met de resultaten van de dure, handgemaakte tests. Als een robot goed scoort op SemBench, is hij echt slim.

4. Wat hebben ze ontdekt?

Ze hebben de test uitgevoerd op verschillende robots (Gemma, Llama, Qwen) en in drie talen: Engels, Spaans en Baskisch.

  • Grotere is niet altijd beter: Soms is een kleinere, slim getrainde robot beter in het begrijpen van woorden dan een gigantische, maar minder gespecialiseerde robot.
  • Specialisten winnen: Voor het Baskisch deden robots die specifiek voor die taal waren getraind het veel beter dan de algemene "super-robots".
  • Minder data is genoeg: Je hoeft niet 1000 zinnen te testen om een betrouwbaar resultaat te krijgen. Met slechts 250 voorbeelden weet je al precies hoe slim de robot is.

Conclusie

SemBench is als een automatische rij-instructeur voor AI. In plaats dat een mens urenlang met de AI in de auto zit om te kijken of hij goed rijdt, doet een computer dit automatisch door een simpele route (woordenboek) te gebruiken. Het maakt het mogelijk om te testen of AI-talen echt begrijpt, zelfs in talen waar we nog nooit eerder een test voor hadden.

Kortom: Het is een lichtgewicht, slim en universeel gereedschap om de "hersenen" van AI op hun echte waarde te testen.