NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Dit artikel presenteert de NCL-UoR-bijdrage aan SemEval-2026 Taak 5, waarbij wordt aangetoond dat gestructureerde promptontwerpen met expliciete besluitregels voor grote taalmodellen de beste prestaties leveren bij het beoordelen van de plausibiliteit van woordbetekenissen, en dat promptontwerp belangrijker is dan modelgrootte.

Tong Wu, Thanet Markchom, Huizhi Liang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kort verhaal leest, maar er staat een woord in dat twee of meer betekenissen kan hebben. Bijvoorbeeld het woord "ring". Dat kan een juweel zijn, maar ook een geluid (zoals een bel).

De uitdaging waar dit onderzoek over gaat, is: Hoe waarschijnlijk is het dat het verhaal over de juweel gaat, en hoe waarschijnlijk is het dat het over het geluid gaat?

De onderzoekers van de universiteiten van Reading en Newcastle hebben voor een wedstrijd (SemEval-2026) geprobeerd om computers slim genoeg te maken om dit te beoordelen op een schaal van 1 tot 5. Ze hebben drie verschillende manieren uitgetest om de computer dit te leren. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Lijst met Kenmerken" (Embedding-based)

De analogie: Stel je voor dat je twee mensen vergelijkt door alleen naar hun schoenmaat en haarkleur te kijken.
De eerste methode probeerde het verhaal en de woordbetekenis te vertalen naar een reeks cijfers (zoals schoenmaten) en zocht naar overeenkomsten.

  • Het resultaat: Dit werkte slecht. Het was alsof je probeert een heel boek te begrijpen door alleen naar de lengte van de zinnen te kijken. De computer zag wel dat woorden leken op elkaar, maar begreep niet waarom het verhaal betekenisvol was. Het miste de diepte van het verhaal.

2. De "Schoolleerling" (Fine-Tuning)

De analogie: Een slimme student die een heel dik boek met voorbeelden uit zijn hoofd leert.
De tweede methode nam een slimme computer (een 'transformator') en liet hem duizenden voorbeelden van deze verhalen zien, zodat hij de regels zelf kon leren. Ze gaven hem ook speciale hulpmiddelen (zoals een 'onzekerheidsmeter') om te leren dat mensen soms oneens zijn over de betekenis.

  • Het resultaat: Dit was veel beter! De student leerde de context. Maar hij had een probleem: als hij een heel nieuw verhaal zag dat leek op iets anders, raakte hij in de war. Hij was te afhankelijk van wat hij precies had geleerd en kon niet goed 'denken' buiten zijn leerboek.

3. De "Slimme Adviseur met een Stappenplan" (LLM Prompting)

De analogie: Een ervaren detective die een stappenplan volgt in plaats van alles uit zijn hoofd te leren.
De derde methode gebruikte de allermodernste AI (zoals GPT-4o), maar gaf hem geen duizenden voorbeelden om uit te leren. In plaats daarvan gaven ze de AI een strakke instructie:

  1. Kijk eerst naar het begin van het verhaal (de aanleiding).
  2. Kijk dan naar de zin met het moeilijke woord.
  3. Kijk tenslotte naar het einde (de oplossing).
  4. De gouden regel: "Als het einde duidelijk zegt dat het woord niet die betekenis heeft, geef dan een 1 of 2. Als het einde het bevestigt, geef dan een 5."
  • Het resultaat: Dit was de winnaar! Door de AI een logisch stappenplan te geven, kon hij veel beter redeneren dan de student die alles uit zijn hoofd leerde. Het bleek dat hoe je de vraag stelt (het stappenplan) belangrijker was dan hoe groot de computer zelf was.

De Grote Leerervaring

De onderzoekers ontdekten drie belangrijke dingen:

  1. Oppervlakkig kijken werkt niet: Alleen kijken of woorden op elkaar lijken, is niet genoeg om een verhaal te begrijpen.
  2. Leren uit voorbeelden heeft grenzen: Een computer die duizenden voorbeelden leert, faalt vaak bij nieuwe situaties.
  3. De instructie is koning: Als je een slimme AI een duidelijk stappenplan geeft (zoals een detective die alle aanwijzingen één voor één checkt), presteert die veel beter dan een supercomputer die alleen maar voorbeelden heeft geleerd.

Kortom: Om een computer slim te maken in het begrijpen van verhalen, moet je hem niet laten "boeren" met data, maar hem een goed stappenplan geven om de puzzel op te lossen. De winnende strategie was simpel: "Kijk naar het begin, het midden en het einde, en oordeel op basis van de regels."