COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Das Rätsel der doppelten Bedeutung: Wie KI menschliche Meinungen versteht

Stell dir vor, du liest eine kurze Geschichte. In dieser Geschichte taucht ein Wort auf, das zwei völlig verschiedene Bedeutungen haben kann – wie das Wort „Bank". Man kann auf einer Bank im Park sitzen oder Geld bei einer Bank einlagern.

In einer einfachen Geschichte ist klar, was gemeint ist. Aber in dieser speziellen Aufgabe (SemEval-2026) sind die Geschichten so geschrieben, dass beide Bedeutungen möglich sind. Die Geschichte ist wie ein Nebel, der beide Wege verschleiert.

Die Aufgabe für die Computer war nicht, die „richtige" Antwort zu finden (denn es gibt keine einzige richtige Antwort), sondern zu erraten: „Wie plausibel finden es die Menschen, dass hier die eine oder andere Bedeutung gemeint ist?"

Die Menschen gaben dazu eine Note von 1 bis 5:

1: „Das passt gar nicht."
5: „Das ist die einzige logische Bedeutung."
3: „Beide passen ungefähr gleich gut."

🤖 Der Ansatz: Ein Team von Detektiven statt eines Einzelkämpfers

Die Autoren (Azwad und Tisa von der Florida International University) haben versucht, moderne KI-Modelle (Large Language Models, kurz LLMs) auf diese Aufgabe anzusetzen. Sie haben nicht nur einen KI-Detektiv eingesetzt, sondern ein ganzes Team.

Hier sind die drei Tricks, die sie ausprobiert haben:

1. Der direkte Befehl (Zero-Shot)

Stell dir vor, du fragst einen Freund: „Was denkst du, passt hier besser?" und wartest auf die Antwort. Das war der Basis-Versuch. Die KI sollte einfach raten, ohne viel Nachdenken.

2. Das Denk-Training (Chain-of-Thought)

Hier haben sie der KI gesagt: „Halt, denk erst Schritt für Schritt nach! Erst schaue dir den Kontext an, dann das Wort, dann vergleiche es..."

Das Ergebnis: Das hat eher nicht so gut funktioniert. Warum? Weil menschliche Intuition oft nicht logisch Schritt-für-Schritt abläuft. Wenn man die KI zwingt, zu analytisch zu denken, verliert sie manchmal den „Bauchgefühl"-Kontakt zu dem, was Menschen wirklich empfinden. Es ist, als würde man jemanden zwingen, einen Witz logisch zu zerlegen, anstatt einfach zu lachen.

3. Der direkte Vergleich (Comparative Prompting)

Das war der Gewinner-Trick. Statt nur eine Bedeutung zu bewerten, sagten sie der KI: „Hier sind zwei Möglichkeiten für das Wort. Welche ist plausibler und warum?"

Die Analogie: Stell dir vor, du musst zwei Kandidaten für einen Job bewerten. Es ist viel einfacher, sie miteinander zu vergleichen („Kandidat A ist etwas besser als Kandidat B") als jedem eine absolute Note zu geben, ohne den anderen zu sehen. Die KI wurde also gezwungen, die beiden Bedeutungen direkt gegeneinander zu kämpfen zu lassen. Das führte zu viel besseren Ergebnissen.

🧱 Das Geheimnis: Der „Schwarm-Effekt" (Ensembles)

Das größte Problem bei dieser Aufgabe war die Menschlichkeit. Wenn man 5 oder 6 verschiedene Menschen fragt, was sie von einer Geschichte halten, sind ihre Meinungen oft sehr unterschiedlich.

Der eine sagt: „Das ist eine 5!"
Der andere sagt: „Nein, das ist eine 2!"
Der Durchschnitt liegt irgendwo dazwischen.

Eine einzelne KI ist wie ein einzelner Mensch: Sie hat eine eigene Meinung und kann sich irren. Die Autoren haben daher eine geniale Idee gehabt: Sie haben die Antworten von vielen verschiedenen KI-Modellen gemischt.

Die Analogie: Stell dir vor, du willst das Wetter vorhersagen. Ein einziger Meteorologe könnte sich täuschen. Aber wenn du die Vorhersagen von 10 verschiedenen Meteorologen nimmst und den Durchschnitt bildest, ist das Ergebnis oft viel genauer und stabiler.
Die Autoren haben also die Stimmen von 10 verschiedenen KI-Modellen (wie GPT-5, Gemini, DeepSeek) zusammengeführt. Selbst wenn ein kleines, weniger intelligentes Modell danebenlag, haben die anderen es „gerettet".

🏆 Das Ergebnis: Ein Team ist stärker als der Einzelne

Der Wettbewerb: Die beste einzelne KI erreichte einen guten Score, aber das Team aus allen KIs (das Ensemble) landete auf Platz 4 von allen Teilnehmern.
Der Nachtrag: Als sie nach dem Wettbewerb noch mehr KI-Modelle hinzugezogen haben, schaffte das Team fast die Platz 1 Leistung.

Die wichtigste Erkenntnis:
Bei Aufgaben, bei denen es um subjektive Meinungen geht (wie „Ist das Wort hier plausibel?"), ist eine einzelne, super-intelligente KI nicht unbedingt der Beste. Ein Team aus vielen verschiedenen KIs, die ihre Meinungen zusammenwerfen, kommt der menschlichen Durchschnittsmeinung viel näher.

🚀 Zusammenfassung in einem Satz

Die Autoren haben bewiesen, dass man KI am besten nicht als einsamen Genie-Detektiv, sondern als ein gut koordiniertes Komitee einsetzt, das verschiedene Meinungen vergleicht und mittelt, um menschliche Gefühle und Meinungen zu verstehen.

(Hinweis: Das Paper stammt aus dem Jahr 2026 und beschreibt einen fiktiven oder zukünftigen Wettbewerb, da wir aktuell noch im Jahr 2024/2025 sind. Die beschriebenen Techniken sind jedoch real und werden aktuell bereits erforscht.)

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Aufgabe des SemEval-2026 Task 5 basiert auf dem AmbiStory-Datensatz und zielt darauf ab, die Plausibilität von Wortbedeutungen (Word Sense Disambiguation, WSD) in kurzen Geschichten zu bewerten. Im Gegensatz zu traditionellen WSD-Aufgaben, die eine einzige „korrekte" Bedeutung annehmen, geht es hier um mehrdeutige Homonyme in narrativen Kontexten, bei denen mehrere Bedeutungen gleichzeitig plausibel sein können.

Aufgabe: Systeme müssen für ein gegebenes Homonym in einem Kontext eine Plausibilitätsbewertung auf einer 5-Punkte-Likert-Skala (1 = unplausibel bis 5 = einzige plausible Bedeutung) vorhersagen.
Herausforderung: Die menschlichen Gold-Labels weisen eine erhebliche Inter-Annotator-Variabilität auf (Krippendorffs α = 0,506). Oft bewerten verschiedene Annotatoren dieselbe Bedeutung in derselben Geschichte unterschiedlich (z. B. von 1 bis 5).
Metriken: Die Bewertung erfolgt durch den ungewichteten Durchschnitt aus:
1. Genauigkeit (Accuracy): Anteil der Vorhersagen, die innerhalb einer Standardabweichung des menschlichen Mittelwerts liegen.
2. Spearman-Rangkorrelation: Korrelation zwischen den Vorhersagen und den menschlichen Mittelwerten.

2. Methodik

Das Team „COGNAC" (Florida International University) entwickelte ein System, das auf Ensembles von geschlossenen Large Language Models (LLMs) und verschiedenen Prompting-Strategien basiert.

A. Prompting-Strategien

Es wurden drei Strategien mit insgesamt zehn verschiedenen LLMs (u. a. GPT-5, GPT-4o, Gemini, DeepSeek) getestet:

Zero-Shot (Baseline): Direkte Abfrage der Plausibilität ohne Beispiel-Prompts oder schrittweise Anleitung. Dies diente als Referenzpunkt.
Chain-of-Thought (CoT): Ein strukturierter Ansatz, bei dem das Modell aufgefordert wurde, in fünf expliziten Schritten zu reasoning (Kontextanalyse, grammatikalische Rolle, semantische Passung, Alternativsinn-Abwägung, finale Bewertung).
- Ergebnis: CoT führte bei den meisten Modellen zu keiner Leistungssteigerung und bei einigen sogar zu Verschlechterungen, da die schrittweise Analyse die menschliche Intuition für subjektive Bewertungen überlagern könnte.
Comparative Prompting (Vergleichend): Da die Bewertungsskala per Definition relational ist („weniger plausibel als andere"), wurden beide konkurrierenden Wortbedeutungen gleichzeitig in einem Prompt präsentiert. Das Modell musste beide Optionen gegeneinander abwägen und bewerten.
- Ergebnis: Diese Strategie erzielte konsistent die besten Ergebnisse über alle Modellfamilien hinweg, da sie die inhärente Relativität der Aufgabe besser abbildet.

B. Ensemble-Methode

Aufgrund der hohen Varianz in den menschlichen Bewertungen schlug das Team vor, dass ein einzelnes Modell Schwierigkeiten hat, den menschlichen Mittelwert genau zu treffen. Daher wurde ein Unweighted Average Ensemble eingeführt:

Vorhersagen mehrerer Modelle (und verschiedener Prompting-Strategien) wurden gemittelt.
Es wurden Ensembles für jede Strategie separat ( $E_{zeroshot}$ , $E_{CoT}$ , $E_{comp}$ ) sowie ein Gesamt-Ensemble ( $E_{all}$ ) gebildet, das alle Modelle und Strategien kombiniert.
Ziel: Die Aggregation reduziert die Varianz und nähert sich dem aggregierten menschlichen Urteil an, selbst wenn einzelne Modelle stark abweichen.

3. Wichtige Beiträge

Evaluation von Prompting-Strategien: Umfassender Vergleich von Zero-Shot, CoT und Comparative Prompting über zehn verschiedene LLMs in einem narrativen, mehrdeutigen Kontext.
Überlegenheit des Comparative Prompting: Nachweis, dass das gleichzeitige Bewerten konkurrierender Sinne die Leistung gegenüber isolierten Bewertungen (Zero-Shot) signifikant verbessert, während CoT in diesem spezifischen subjektiven Szenario wenig Nutzen bringt.
Effektivität von LLM-Ensembles: Demonstration, dass einfache Ensembles (Durchschnittsbildung) die Ausrichtung auf menschliche Urteile in hochvariablen, multi-annotator-Szenarien drastisch verbessern. Bemerkenswert ist, dass Ensembles aus kleineren Modellen oft besser abschnitten als einzelne, leistungsfähigere Modelle.

4. Ergebnisse

Die Ergebnisse wurden auf dem Entwicklungssatz (Dev) und dem Testsatz (Test) validiert.

Einzelmodelle: Das beste einzelne Modell ( $gpt-5-mini$ mit Zero-Shot) erreichte eine durchschnittliche Punktzahl von 0,81 (0,83 Genauigkeit, 0,80 $\rho$ ).
Ensemble-Leistung (Entwicklungssatz): Das Gesamt-Ensemble $E_{all}$ (alle Modelle und Strategien) erreichte 0,87 (0,89 Genauigkeit, 0,84 $\rho$ ).
Offizielles Ergebnis (Test): Das eingereichte System (Ensemble der ersten 6 Modelle) belegte den 4. Platz mit einer durchschnittlichen Punktzahl von 0,86 (0,88 Genauigkeit, 0,83 $\rho$ ).
Post-Wettbewerb-Verbesserung: Durch Hinzufügen von vier weiteren Modellen (insgesamt 10 LLMs) verbesserte sich das Ensemble $E_{all}$ auf dem Testset auf 0,89 (0,92 Genauigkeit, 0,85 $\rho$ ). Dies steht in direkter Konkurrenz zum ersten Platz (SRCB, 0,89).
Visualisierung: Die Ensemble-Vorhersagen ( $E_{all}$ ) passten sich deutlich besser an den Bereich der menschlichen Urteile (Mittelwert $\pm$ 1 Standardabweichung) an als das beste Einzelmodell.

5. Bedeutung und Fazit

Das Paper zeigt, dass für Aufgaben mit subjektiver semantischer Bewertung und hoher menschlicher Diskrepanz herkömmliche Ansätze wie Chain-of-Thought weniger effektiv sind als vergleichende Prompting-Strategien.

Die zentrale Erkenntnis ist, dass LLM-Ensembles eine robuste Methode darstellen, um die „menschliche Unsicherheit" und Varianz in Annotationen zu modellieren. Anstatt zu versuchen, eine einzige „wahre" Antwort zu finden, nutzen Ensembles die kollektive Intelligenz verschiedener Modelle, um den menschlichen Konsens (Mittelwert) präziser vorherzusagen. Dies ist besonders relevant für NLP-Aufgaben, bei denen es keine eindeutige Gold-Standard-Antwort gibt, sondern ein Spektrum plausibler Interpretationen.

Einschränkungen:
Das System ist vollständig auf geschlossene kommerzielle LLMs angewiesen, was die Reproduzierbarkeit durch API-Kosten einschränkt. Zudem wurde kein Fine-Tuning durchgeführt, und die hohe Rechenlast durch Ensembling macht das System in ressourcenbeschränkten Umgebungen weniger praktikabel.