COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♀️ Het Grote Raadsel: Woorden met Dubbele Betekenis

Stel je voor dat je een kort verhaal leest. In dat verhaal komt een woord voor dat twee betekenissen kan hebben, zoals het woord "bank". Is het een plek om op te zitten, of is het een plek waar je geld kunt lenen?

In de echte wereld is het antwoord niet altijd zwart-wit. Soms past de ene betekenis net iets beter dan de andere, en soms vinden mensen het gewoon lastig om te beslissen. Mensen kunnen hier heel verschillend over denken.

De onderzoekers van deze paper (Azwad en Tisa van de Florida International University) deden mee aan een wedstrijd (SemEval-2026) waarbij computers moesten proberen te raden: "Hoe logisch klinkt deze betekenis in dit verhaal?" Ze moesten een cijfer geven van 1 (heeft geen zin) tot 5 (heeft perfect zin).

🤖 De Computers: Slimme maar Eenzame Denkers

De onderzoekers gebruikten de slimste computers ter wereld: LLM's (grote taalmodellen zoals GPT en Gemini). Ze probeerden drie verschillende manieren om deze computers te laten denken:

De "Directe Vraag" (Zero-shot):
- Vergelijking: Je vraagt iemand: "Wat denk jij?" zonder extra uitleg.
- Resultaat: Dit werkt redelijk, maar de computer maakt soms snelle, oppervlakkige aannames.
De "Stap-voor-Stap" (Chain-of-Thought):
- Vergelijking: Je zegt tegen de computer: "Denk eerst na over de zinnen, kijk naar de grammatica, vergelijk het met andere woorden, en dan geef een cijfer."
- Resultaat: Je zou denken dat dit beter werkt, maar bij dit soort subjectieve vragen bleek het soms juist te veel "overdenken". De computer werd te analytisch en raakte de menselijke intuïtie kwijt. Het was alsof je iemand vraagt om een schilderij te beoordelen door eerst de chemie van de verf te analyseren; het resultaat is dan niet altijd eerlijk.
De "Vergelijkende Keuze" (Comparative Prompting):
- Vergelijking: Je legt de computer twee opties voor: "Is 'bank' hier een zitplek OF een geldinstelling? Welke past beter en waarom?"
- Resultaat: Dit was de winnaar. Door de computer te dwingen de twee betekenissen direct met elkaar te vergelijken, kreeg hij een veel beter beeld van de context. Het is alsof je een jurie vraagt om twee kandidaten te vergelijken in plaats van ze apart te beoordelen; dan zie je de verschillen veel scherper.

🤝 De Kracht van het Team: Het Ensemble

Het grootste probleem was dat mensen het zelf ook oneens zijn. Als vijf mensen hetzelfde verhaal lezen, kan de één zeggen "dit is een 5" en de ander "dit is een 2". Er is geen enkel "juist" antwoord.

Eén enkele computer probeerde dit na te bootsen, maar faalde vaak omdat hij te veel neigde naar één mening.

De onderzoekers bedachten een slimme oplossing: Het Ensemble.

Vergelijking: In plaats van één expert te vragen, vroegen ze tien verschillende experts (verschillende computermodellen) om hun mening. Vervolgens namen ze het gemiddelde van al die antwoorden.
Het effect: Dit werkte wonderbaarlijk goed. Het gemiddelde van tien "mensen" (computers) kwam veel dichter bij het gemiddelde van de echte mensen dan de slimste enkele computer ooit kon.
- Zelfs een team van drie "slimmere" computers deed het niet beter dan een team van drie "slimmere" computers die samenwerkte. Samen zijn ze sterker dan de som der delen.

🏆 Het Resultaat

De wedstrijd: Hun beste team (een mix van alle strategieën) eindigde op plaats 4 in de wereldwijde ranglijst.
Na de wedstrijd: Toen ze nog meer computers toevoegden aan hun team, werd hun score zelfs nog beter, en haalde ze bijna de nummer 1.

💡 De Grote Les

De belangrijkste conclusie van dit onderzoek is: Bij moeilijke, subjectieve vragen (waar mensen het oneens over zijn), werkt een team van verschillende AI-modellen beter dan één super-slimme AI.

Het is alsof je een moeilijke wiskundetoets moet maken. Als je het alleen doet, maak je misschien een fout. Maar als je met een groepje vrienden de antwoorden vergelijkt en het gemiddelde neemt, kom je vaak dichter bij het juiste antwoord, zelfs als niemand het helemaal perfect heeft.

Kortom: Voor het begrijpen van menselijke nuance en twijfel, is samenwerking tussen verschillende AI's de sleutel tot succes.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert de uitdaging van woordzin-disambiguatie (WSD) in narratieve contexten. In tegenstelling tot traditionele WSD-taken die uitgaan van één objectief correcte betekenis per woord, erkent deze taak dat homoniemen (woorden met meerdere betekenissen) in verhalen vaak meerdere plausibele interpretaties kunnen hebben.

De specifieke taak (SemEval-2026 Task 5) vereist dat systemen de plausibiliteit van een gegeven woordzin in een kort verhaal beoordelen op een 5-punts Likert-schaal (van 1: onwaarschijnlijk tot 5: de enige mogelijke betekenis). De dataset, AmbiStory, bevat verhalen waarin de context indirecte aanwijzingen geeft die de relatieve plausibiliteit van concurrerende betekenissen verschuiven.

Een cruciale complexiteit is de substantiële variatie tussen menselijke annotatoren. De gouden labels zijn gemiddelden van 5-6 menselijke beoordelingen per steekproef, met een lage inter-annotator overeenstemming (Krippendorff's $\alpha = 0.506$ ) en een hoge standaardafwijking ( $\sigma = 0.946$ ). Dit betekent dat er geen enkele "juiste" waarde is, maar een verdeling van menselijke oordelen die het systeem moet nabootsen. De evaluatiemetrics zijn een ongewogen gemiddelde van:

Nauwkeurigheid (Accuracy): Het percentage voorspellingen dat binnen één standaardafwijking van het menselijk gemiddelde ligt.
Spearman Rangcorrelatie: De correlatie tussen de voorspellingen en de menselijke gemiddelden.

Methodologie

De auteurs (van Florida International University) hebben een systeem ontwikkeld dat gebruikmaakt van Closed-Source Large Language Models (LLMs) en drie verschillende prompt-strategieën, gecombineerd met een ensemble-methode.

1. Prompt-strategieën:
Ze testten zes modellen tijdens de competitie (later uitgebreid naar tien) met drie benaderingen:

Zero-shot (Basislijn): Een directe prompt zonder voorbeelden, waarbij het model een plausibiliteitscijfer en een korte rechtvaardiging moet geven.
Chain-of-Thought (CoT): Een gestructureerde prompt die het model dwingt tot stap-voor-stap redenering (context analyseren, grammatica, semantische fit, alternatieven overwegen, en dan een score geven).
Comparative Prompting: Een strategie waarbij het model beide kandidaat-betekenissen van het homoniem gelijktijdig in één prompt krijgt aangeboden. Het model moet beide opties beoordelen en vergelijken. Dit sluit beter aan bij de competitieve aard van de annotatie (waarbij plausibiliteit relatief is ten opzichte van andere betekenissen).

2. Ensemble-methode:
Gezien de hoge variatie in menselijke oordelen, stellen de auteurs dat één enkel model moeite heeft om het menselijke gemiddelde perfect te reproduceren. Ze introduceren daarom een LLM-ensemble:

Voorspellingen van meerdere modellen worden samengevoegd via een ongewogen gemiddelde.
Er worden vier ensemble-configuraties getest: één per prompt-strategie ( $E_{zero}$ , $E_{CoT}$ , $E_{comp}$ ) en één allesomvattende ensemble ( $E_{all}$ ) die alle modellen en strategieën combineert.

3. Experimenteel Ontwerp:

Gebruik van de development set voor tuning (geen training op de grotere trainingsset vanwege kosten en tijd).
Testen op de testset na de competitie met vier extra modellen (waaronder Deepseek-v3.2 en nieuwere GPT-versies).

Belangrijkste Resultaten

Individuele Modelprestaties:

Comparative Prompting presteerde consistent beter dan de Zero-shot en CoT-strategieën op de development set voor 9 van de 10 modellen.
Chain-of-Thought bleek minder effectief dan verwacht; voor 6 van de 10 modellen presteerde CoT slechter dan de Zero-shot basislijn. De auteurs suggereren dat stap-voor-stap redenering modellen kan leiden tot te analytische interpretaties die afwijken van menselijke intuïtie in subjectieve taken.
De beste individuele prestatie op de development set werd geleverd door gpt-5-mini met Zero-shot prompting (0.81 gemiddelde score).

Ensemble Prestaties:

Het ensemble $E_{all}$ (alle modellen en strategieën gecombineerd) leverde de beste resultaten op.
Officiële inzending: Met 6 modellen behaalde het team de 4e plaats met een gemiddelde score van 0.86 (0.88 nauwkeurigheid, 0.83 Spearman $\rho$ ).
Post-competitie verbetering: Door het toevoegen van 4 extra modellen steeg de prestatie van het ensemble naar 0.89 gemiddelde score (0.92 nauwkeurigheid, 0.85 Spearman $\rho$ ).
Opmerkelijk is dat zelfs een ensemble van de drie zwakste modellen in de testset een score van 0.812 haalde, wat vergelijkbaar is met de beste individuele modellen.

Visualisatie:
Figuren in het paper tonen aan dat het ensemble ( $E_{all}$ ) veel beter overeenkomt met het menselijke oordeel (binnen de 1-stdev zone) dan zelfs de beste individuele modellen.

Belangrijkste Bijdragen

Evaluatie van Prompt-strategieën: Het paper toont aan dat het gezamenlijk beoordelen van concurrerende betekenissen (comparative prompting) superieur is aan het beoordelen van één betekenis in isolatie of het gebruik van gestructureerde CoT voor deze specifieke subjectieve taak.
Effectiviteit van Ensembles: Het demonstreert dat eenvoudige ensemble-methoden (gemiddelde van voorspellingen) de prestaties aanzienlijk verbeteren in taken met hoge variatie in menselijke annotaties. Zelfs kleine modellen, wanneer gecombineerd, kunnen beter presteren dan grote, geavanceerde modellen die alleen werken.
Benchmark voor Subjectieve Semantiek: Het biedt inzicht in hoe LLMs kunnen worden ingezet om menselijke onzekerheid en variatie in semantische interpretaties te modelleren, in plaats van te zoeken naar één "juist" antwoord.

Betekenis en Conclusie

De studie concludeert dat LLM-ensembles uiterst geschikt zijn voor subjectieve semantische evaluatietaken waar menselijke oordelen variëren. De bevinding dat "veel kleine modellen samen beter zijn dan één groot model" (of dat een ensemble van zwakkere modellen de top presteert) is een belangrijke inzicht voor de NLP-gemeenschap.

Het team COGNAC behaalde met hun ensemble-aanpak een top-4 positie, en na post-competitie optimalisatie een score die gelijkwaardig is aan de winnaar van de competitie (0.89 vs 0.89). Dit onderstreept dat het modelleren van de verdeling van menselijke oordelen (via ensembles) effectiever is dan het proberen het menselijke gemiddelde te voorspellen met een enkel model.

Beperkingen:
Het systeem is afhankelijk van gesloten, commerciële API's, wat de reproduceerbaarheid en toegankelijkheid beperkt door kosten. Ook werd er geen fine-tuning toegepast op de beschikbare trainingsdata, en de ensemble-methode verhoogt de inferentiekosten en latentie aanzienlijk.

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

🕵️‍♀️ Het Grote Raadsel: Woorden met Dubbele Betekenis

🤖 De Computers: Slimme maar Eenzame Denkers

🤝 De Kracht van het Team: Het Ensemble

🏆 Het Resultaat

💡 De Grote Les

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies