NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kort verhaal leest, maar er staat een woord in dat twee of meer betekenissen kan hebben. Bijvoorbeeld het woord "ring". Dat kan een juweel zijn, maar ook een geluid (zoals een bel).

De uitdaging waar dit onderzoek over gaat, is: Hoe waarschijnlijk is het dat het verhaal over de juweel gaat, en hoe waarschijnlijk is het dat het over het geluid gaat?

De onderzoekers van de universiteiten van Reading en Newcastle hebben voor een wedstrijd (SemEval-2026) geprobeerd om computers slim genoeg te maken om dit te beoordelen op een schaal van 1 tot 5. Ze hebben drie verschillende manieren uitgetest om de computer dit te leren. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Lijst met Kenmerken" (Embedding-based)

De analogie: Stel je voor dat je twee mensen vergelijkt door alleen naar hun schoenmaat en haarkleur te kijken.
De eerste methode probeerde het verhaal en de woordbetekenis te vertalen naar een reeks cijfers (zoals schoenmaten) en zocht naar overeenkomsten.

Het resultaat: Dit werkte slecht. Het was alsof je probeert een heel boek te begrijpen door alleen naar de lengte van de zinnen te kijken. De computer zag wel dat woorden leken op elkaar, maar begreep niet waarom het verhaal betekenisvol was. Het miste de diepte van het verhaal.

2. De "Schoolleerling" (Fine-Tuning)

De analogie: Een slimme student die een heel dik boek met voorbeelden uit zijn hoofd leert.
De tweede methode nam een slimme computer (een 'transformator') en liet hem duizenden voorbeelden van deze verhalen zien, zodat hij de regels zelf kon leren. Ze gaven hem ook speciale hulpmiddelen (zoals een 'onzekerheidsmeter') om te leren dat mensen soms oneens zijn over de betekenis.

Het resultaat: Dit was veel beter! De student leerde de context. Maar hij had een probleem: als hij een heel nieuw verhaal zag dat leek op iets anders, raakte hij in de war. Hij was te afhankelijk van wat hij precies had geleerd en kon niet goed 'denken' buiten zijn leerboek.

3. De "Slimme Adviseur met een Stappenplan" (LLM Prompting)

De analogie: Een ervaren detective die een stappenplan volgt in plaats van alles uit zijn hoofd te leren.
De derde methode gebruikte de allermodernste AI (zoals GPT-4o), maar gaf hem geen duizenden voorbeelden om uit te leren. In plaats daarvan gaven ze de AI een strakke instructie:

Kijk eerst naar het begin van het verhaal (de aanleiding).
Kijk dan naar de zin met het moeilijke woord.
Kijk tenslotte naar het einde (de oplossing).
De gouden regel: "Als het einde duidelijk zegt dat het woord niet die betekenis heeft, geef dan een 1 of 2. Als het einde het bevestigt, geef dan een 5."

Het resultaat: Dit was de winnaar! Door de AI een logisch stappenplan te geven, kon hij veel beter redeneren dan de student die alles uit zijn hoofd leerde. Het bleek dat hoe je de vraag stelt (het stappenplan) belangrijker was dan hoe groot de computer zelf was.

De Grote Leerervaring

De onderzoekers ontdekten drie belangrijke dingen:

Oppervlakkig kijken werkt niet: Alleen kijken of woorden op elkaar lijken, is niet genoeg om een verhaal te begrijpen.
Leren uit voorbeelden heeft grenzen: Een computer die duizenden voorbeelden leert, faalt vaak bij nieuwe situaties.
De instructie is koning: Als je een slimme AI een duidelijk stappenplan geeft (zoals een detective die alle aanwijzingen één voor één checkt), presteert die veel beter dan een supercomputer die alleen maar voorbeelden heeft geleerd.

Kortom: Om een computer slim te maken in het begrijpen van verhalen, moet je hem niet laten "boeren" met data, maar hem een goed stappenplan geven om de puzzel op te lossen. De winnende strategie was simpel: "Kijk naar het begin, het midden en het einde, en oordeel op basis van de regels."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating" in het Nederlands.

Probleemstelling

De taak, SemEval-2026 Task 5, richt zich op het beoordelen van de plausibiliteit van woordbetekenis (Word Sense Plausibility Rating). In tegenstelling tot traditionele Woordbetekenisdisambiguatie (WSD), waarbij één correcte betekenis wordt geselecteerd, gaat deze taak uit van een gegradueerde schaal (1 tot 5).

Doel: Voorspellen hoe plausibel een specifieke betekenis van een homoniem is binnen de context van een kort verhalend verhaal.
Data: Het gebruikte dataset is AmbiStory, bestaande uit verhalen van vijf zinnen met een dubbelzinnig woord. De invoer bestaat uit het volledige verhaal en een kandidaat-betekenis; de uitvoer is een plausibiliteitscijfer.
Uitdaging: De systemen moeten redeneren over hoe de precontext, de doelzin en het einde samenwerken om een betekenis te ondersteunen of te ontkrachten.

Methodologie

De auteurs hebben drie verschillende benaderingen systematisch vergeleken om de plausibiliteit te voorspellen:

Embedding-gebaseerde methoden:
- Gebruik van sentence-embeddings (MPNet en RoBERTa) om de tekst te coderen.
- Extractie van handgemaakte kenmerken zoals cosinus-相似heid, Euclidische afstand, puntproduct, tekstlengte en interactietermen.
- Deze kenmerken worden gevoed in klassieke regressiemodellen (Ridge Regression en XGBoost).
- Beperking: Deze methode mist het vermogen om complexe narratieve redeneringen te modelleren.
Transformer Fine-Tuning:
- Aanpassing van voorgeprogrammeerde taalmodellen (ELECTRA en DeBERTa) met LoRA (Low-Rank Adaptation) voor parameter-efficiëntie.
- Verbeteringen:
  - Gebruik van Huber Loss voor robuustheid tegen annotator-onenigheid.
  - Pairwise Ranking Loss (RankNet): Om de rangorde-correlatie (Spearman) direct te optimaliseren.
  - Uncertainty-aware Loss: Een straffing die gebaseerd is op de standaardafwijking van de menselijke annotatoren; fouten binnen het bereik van menselijke onenigheid krijgen geen straf.
- DeBERTa-large met deze extra loss-functies presteerde het beste binnen deze categorie.
LLM Prompting (Grote Taalmodellen):
- Gebruik van modellen zoals GPT-4o, GPT-5 en Llama 3.
- Strategie P1 (Few-Shot): Traditionele prompting met voorbeelden.
- Strategie P2 (Gestructureerd Prompten met Beslissingsregels): Dit is de kerninnovatie. In plaats van voorbeelden, krijgt het model een gestructureerde instructie die de evaluatie decomposeert in drie componenten:
  - Precontext: Is de opzet waarschijnlijk?
  - Doelzin: Ondersteunt de lokale gebruik de betekenis?
  - Einde: Is dit de sterkste bron van bewijs?
- Expliciete regels: Het model krijgt harde regels mee, bijvoorbeeld: "Als het einde de betekenis duidelijk tegenspreekt, moet de rating 1 of 2 zijn." Dit fungeert als een kalibratiemechanisme.

Belangrijkste Resultaten

De resultaten op de testset tonen een duidelijke hiërarchie in prestaties:

Embedding-methoden: Presteerden zeer slecht (Spearman $\rho \approx 0.11-0.13$ ), wat aantoont dat statische gelijkenismaten onvoldoende zijn voor narratief redeneren.
Fine-tuning: Verbeterde de prestaties aanzienlijk ( $\rho \approx 0.49 - 0.53$ ), maar generaliseerde minder goed dan verwacht op onbekende homoniemen.
LLM Prompting: De beste resultaten werden behaald met GPT-4o en gestructureerd prompten (P2).
- Beste systeem: GPT-4o met gestructureerde prompts behaalde een Spearman correlatie ( $\rho$ ) van 0.731 en een nauwkeurigheid (Acc.) van 0.794.
- Dit overtrof zowel de fine-tuned modellen als de embedding-methoden aanzienlijk.
- Interessant is dat prompt-design belangrijker is dan modelgrootte: GPT-4o (met P2) presteerde beter dan de grotere GPT-5.2 (met P1) en zelfs beter dan GPT-5.2 met P2.

Key Contributions (Bijdragen)

Gestructureerde Prompt-strategie: De ontwikkeling van een prompt die de evaluatie decomposeert in narratieve componenten en gebruikmaakt van expliciete beslissingsregels voor kalibratie. Dit bleek effectiever dan het memoriseren van voorbeelden (few-shot).
Vergelijkende Analyse: Een systematische vergelijking die aantoont dat voor deze specifieke taak (narratieve plausibiliteit) de kwaliteit van de prompt en de redeneringsstructuur crucieler is dan het simpelweg vergroten van het model of het fine-tunen van parameters.
Foutanalyse: Inzicht in de beperkingen van modellen, zoals de neiging om te discripeteren naar gehele getallen (1-5) in plaats van continue scores, en de gevoeligheid voor misleidende precontexten die leiden tot catastrofale fouten.

Significantie en Conclusie

Dit paper toont aan dat voor complexe semantische taken zoals het beoordelen van woordbetekenis in verhalen, gestructureerde redenering via LLM-prompting superieur is aan traditionele fine-tuning of embedding-gebaseerde regressie. De succesfactor ligt niet in het model zelf, maar in hoe de taak wordt geframed: door het model te dwingen om componenten apart te evalueren en zich te houden aan strikte kalibratieregels, wordt de menselijke beoordeling nauwkeuriger nagebootst. De code is open-source beschikbaar, wat herbruikbaarheid voor toekomstig onderzoek in semantische analyse faciliteert.

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

1. De "Lijst met Kenmerken" (Embedding-based)

2. De "Schoolleerling" (Fine-Tuning)

3. De "Slimme Adviseur met een Stappenplan" (LLM Prompting)

De Grote Leerervaring

Probleemstelling

Methodologie

Belangrijkste Resultaten

Key Contributions (Bijdragen)

Significantie en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models