COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Het COGNAC-systeem voor SemEval-2026 Task 5 bereikte menselijke prestaties bij het beoordelen van de plausibiliteit van woordbetekenissen in verhalen door een ensemble van gesloten LLM's te combineren met drie prompt-strategieën, waarbij vergelijkende prompting en modelensemble's de nauwkeurigheid en correlatie met menselijke oordelen aanzienlijk verbeterden.

Azwad Anjum Islam, Tisa Islam Erana

Gepubliceerd Wed, 18 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♀️ Het Grote Raadsel: Woorden met Dubbele Betekenis

Stel je voor dat je een kort verhaal leest. In dat verhaal komt een woord voor dat twee betekenissen kan hebben, zoals het woord "bank". Is het een plek om op te zitten, of is het een plek waar je geld kunt lenen?

In de echte wereld is het antwoord niet altijd zwart-wit. Soms past de ene betekenis net iets beter dan de andere, en soms vinden mensen het gewoon lastig om te beslissen. Mensen kunnen hier heel verschillend over denken.

De onderzoekers van deze paper (Azwad en Tisa van de Florida International University) deden mee aan een wedstrijd (SemEval-2026) waarbij computers moesten proberen te raden: "Hoe logisch klinkt deze betekenis in dit verhaal?" Ze moesten een cijfer geven van 1 (heeft geen zin) tot 5 (heeft perfect zin).

🤖 De Computers: Slimme maar Eenzame Denkers

De onderzoekers gebruikten de slimste computers ter wereld: LLM's (grote taalmodellen zoals GPT en Gemini). Ze probeerden drie verschillende manieren om deze computers te laten denken:

  1. De "Directe Vraag" (Zero-shot):

    • Vergelijking: Je vraagt iemand: "Wat denk jij?" zonder extra uitleg.
    • Resultaat: Dit werkt redelijk, maar de computer maakt soms snelle, oppervlakkige aannames.
  2. De "Stap-voor-Stap" (Chain-of-Thought):

    • Vergelijking: Je zegt tegen de computer: "Denk eerst na over de zinnen, kijk naar de grammatica, vergelijk het met andere woorden, en dan geef een cijfer."
    • Resultaat: Je zou denken dat dit beter werkt, maar bij dit soort subjectieve vragen bleek het soms juist te veel "overdenken". De computer werd te analytisch en raakte de menselijke intuïtie kwijt. Het was alsof je iemand vraagt om een schilderij te beoordelen door eerst de chemie van de verf te analyseren; het resultaat is dan niet altijd eerlijk.
  3. De "Vergelijkende Keuze" (Comparative Prompting):

    • Vergelijking: Je legt de computer twee opties voor: "Is 'bank' hier een zitplek OF een geldinstelling? Welke past beter en waarom?"
    • Resultaat: Dit was de winnaar. Door de computer te dwingen de twee betekenissen direct met elkaar te vergelijken, kreeg hij een veel beter beeld van de context. Het is alsof je een jurie vraagt om twee kandidaten te vergelijken in plaats van ze apart te beoordelen; dan zie je de verschillen veel scherper.

🤝 De Kracht van het Team: Het Ensemble

Het grootste probleem was dat mensen het zelf ook oneens zijn. Als vijf mensen hetzelfde verhaal lezen, kan de één zeggen "dit is een 5" en de ander "dit is een 2". Er is geen enkel "juist" antwoord.

Eén enkele computer probeerde dit na te bootsen, maar faalde vaak omdat hij te veel neigde naar één mening.

De onderzoekers bedachten een slimme oplossing: Het Ensemble.

  • Vergelijking: In plaats van één expert te vragen, vroegen ze tien verschillende experts (verschillende computermodellen) om hun mening. Vervolgens namen ze het gemiddelde van al die antwoorden.
  • Het effect: Dit werkte wonderbaarlijk goed. Het gemiddelde van tien "mensen" (computers) kwam veel dichter bij het gemiddelde van de echte mensen dan de slimste enkele computer ooit kon.
    • Zelfs een team van drie "slimmere" computers deed het niet beter dan een team van drie "slimmere" computers die samenwerkte. Samen zijn ze sterker dan de som der delen.

🏆 Het Resultaat

  • De wedstrijd: Hun beste team (een mix van alle strategieën) eindigde op plaats 4 in de wereldwijde ranglijst.
  • Na de wedstrijd: Toen ze nog meer computers toevoegden aan hun team, werd hun score zelfs nog beter, en haalde ze bijna de nummer 1.

💡 De Grote Les

De belangrijkste conclusie van dit onderzoek is: Bij moeilijke, subjectieve vragen (waar mensen het oneens over zijn), werkt een team van verschillende AI-modellen beter dan één super-slimme AI.

Het is alsof je een moeilijke wiskundetoets moet maken. Als je het alleen doet, maak je misschien een fout. Maar als je met een groepje vrienden de antwoorden vergelijkt en het gemiddelde neemt, kom je vaak dichter bij het juiste antwoord, zelfs als niemand het helemaal perfect heeft.

Kortom: Voor het begrijpen van menselijke nuance en twijfel, is samenwerking tussen verschillende AI's de sleutel tot succes.