NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du liest eine kurze Geschichte, in der ein Wort vorkommt, das zwei völlig unterschiedliche Bedeutungen haben kann. Das ist wie ein Wort-Rätsel.

Die Aufgabe dieses Papers (eine Forschungsarbeit) war es, einen Computer zu bauen, der erraten kann: „Wie wahrscheinlich ist es, dass die Menschen diese eine spezifische Bedeutung des Wortes in dieser Geschichte meinen?" Die Antwort soll auf einer Skala von 1 (ganz und gar nicht passend) bis 5 (perfekt passend) gegeben werden.

Das Team von der Universität Reading und Newcastle University hat drei verschiedene Methoden ausprobiert, um dieses Rätsel zu lösen. Hier ist die Erklärung, wie sie gearbeitet haben, mit ein paar einfachen Vergleichen:

1. Der „Kleber"-Ansatz (Embedding-Based Methods)

Wie es funktioniert:
Stell dir vor, du hast einen Kleber, der Wörter und Sätze in eine Art unsichtbare Wolke aus Daten verwandelt. Der Computer schaut dann nur, wie nah sich die „Wolke" der Geschichte und die „Wolke" der Wortbedeutung beieinander befinden. Je näher sie sind, desto besser passt es.
Das Ergebnis:
Das hat nicht gut geklappt. Es war, als würde man versuchen, einen komplexen Krimi zu verstehen, indem man nur schaut, ob die Buchstaben in den Wörtern ähnlich aussehen. Der Computer hat die Geschichte nicht wirklich verstanden, sondern nur oberflächliche Ähnlichkeiten gemessen. Die Ergebnisse waren sehr schwach.

2. Der „Schüler"-Ansatz (Fine-Tuning)

Wie es funktioniert:
Hier nehmen wir einen sehr schlauen, aber noch etwas untrainierten Schüler (ein großes KI-Modell wie ELECTRA oder DeBERTa). Wir geben ihm tausende Beispiele von Geschichten und die richtigen Antworten und lassen ihn lernen. Wir sagen ihm: „Achte besonders auf die Details und die Unsicherheit der Menschen."
Das Ergebnis:
Der Schüler hat es besser gemacht als der Kleber-Ansatz. Er hat gelernt, den Kontext zu verstehen. Aber er hatte ein Problem: Wenn er auf völlig neue Geschichten traf, die er noch nie gesehen hatte, wurde er manchmal verwirrt. Er hat sich zu sehr auf das Auswendiglernen der Trainingsbeispiele verlassen, statt das Prinzip wirklich zu begreifen.

3. Der „Detektiv"-Ansatz (LLM Prompting) – Der Gewinner! 🏆

Wie es funktioniert:
Statt den Computer nur zu trainieren, haben die Forscher ihm eine klare Checkliste gegeben. Sie haben zu einem sehr großen und klugen KI-Modell (wie GPT-4o) gesagt:

„Sei kein Schüler, der auswendig lernt, sondern sei ein unparteiischer Detektiv."
„Unterteile die Geschichte in drei Teile: Der Anfang (Vorgeschichte), der Mittelteil (das Wort selbst) und das Ende."
„Beurteile jeden Teil einzeln."
Die wichtigste Regel: „Wenn das Ende der Geschichte die Bedeutung des Wortes eindeutig widerlegt, gib sofort eine 1 oder 2. Wenn das Ende die Bedeutung bestätigt, gib eine 5."

Das Ergebnis:
Das war der Durchbruch! Indem sie dem Computer klare Regeln gaben, wie er denken soll, hat er viel besser funktioniert als die Modelle, die nur gelernt haben.

Die Lektion: Es ist weniger wichtig, wie groß oder stark das Gehirn des Computers ist, sondern wie gut die Anweisungen (der „Prompt") sind, die ihm gegeben werden. Ein kleineres Modell mit einer perfekten Checkliste schlägt oft ein riesiges Modell ohne Anleitung.

Was haben sie noch herausgefunden? (Die Fehleranalyse)

Das „Ende" ist König: In diesen Geschichten ist das letzte Satzteil oft der Schlüssel. Wenn das Ende sagt: „Er kaufte einen Ring" (Schmuck), dann passt die Bedeutung „Klingeln" (wie bei einem Handy) gar nicht, egal was vorher passiert ist.
Zwischenwerte sind schwer: Es ist für den Computer am schwierigsten, wenn die Geschichte „halbwegs" passt (eine 3 oder 4). Wenn es ganz klar ist (eine 1 oder eine 5), machen die Computer weniger Fehler.
Verwirrung durch den Anfang: Manchmal führt der Anfang der Geschichte den Computer in die Irre. Wenn der Anfang stark auf eine Bedeutung hindeutet, aber das Ende eine andere bestätigt, verliert der Computer manchmal den Faden.

Fazit in einem Satz

Die Forscher haben herausgefunden, dass man Computern nicht einfach nur mehr Daten zum Lernen geben muss, sondern ihnen klare Denkregeln geben sollte, um Wort-Rätsel in Geschichten zu lösen. Der „Detektiv mit Checkliste" war der beste aller Versuche.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating" auf Deutsch:

1. Problemstellung

Die Aufgabe des SemEval-2026 Task 5 (AmbiStory) besteht darin, die Plausibilität eines Wortsinns in einem mehrdeutigen Kontext zu bewerten. Im Gegensatz zur traditionellen Wortsinndisambiguierung (WSD), die nach einer einzigen „korrekten" Bedeutung sucht, geht es hier um eine graduelle Bewertung auf einer Skala von 1 bis 5.

Eingabe: Eine kurze englische Erzählung aus fünf Sätzen, die ein mehrdeutiges Homonym enthält. Die Struktur besteht aus einem Vorfeld (Precontext), einem Zielsatz (mit dem Homonym) und einem Endsatz (Ending), der die Bedeutung oft auflöst.
Ziel: Vorhersage des menschlich wahrgenommenen Plausibilitätsgrades einer spezifischen Wortbedeutung.
Herausforderung: Das System muss kontextuelle Nuancen verstehen, insbesondere wie der Endsatz die Bedeutung bestätigt oder widerspricht, und dabei mit menschlicher Unsicherheit (Abweichungen zwischen Annotatoren) umgehen.

2. Methodik

Die Autoren untersuchen drei verschiedene Modellierungsansätze, die alle denselben Input (Erzählung + Kandidatenbedeutung) verarbeiten:

A. Embedding-basierte Methoden

Dieser Ansatz extrahiert Ähnlichkeitsmerkmale aus Satz-Embeddings und nutzt klassische Regressoren:

Modelle: MPNet und RoBERTa (zur Generierung von Satz-Embeddings).
Merkmale: Kosinus-Ähnlichkeit, euklidischer Abstand, Punktprodukt, Textlängen, binäre Indikatoren für den Endsatz und Interaktionsterme.
Regressoren: Ridge-Regression (für MPNet) und XGBoost (für RoBERTa mit erweiterten Merkmalen wie lexikalischer Überlappung).
Limitierung: Dieser Ansatz versucht, die Aufgabe als statische Ähnlichkeitsberechnung zu lösen, ohne tiefes kontextuelles Reasoning.

B. Fine-Tuning von Transformern

Hier werden vortrainierte Sprachmodelle mit LoRA (Low-Rank Adaptation) für die Regressionsaufgabe angepasst:

Modelle: ELECTRA (Base und Large) und DeBERTa-large.
Anpassungen:
- Nutzung von LoRA für parameter-effizientes Fine-Tuning.
- Verlustfunktionen: Neben dem Standard-Regression-Verlust (MSE oder Huber Loss) wurden zwei spezielle Komponenten eingeführt:
  1. RankNet (Pairwise Loss): Um die Spearman-Korrelation direkt zu optimieren, indem Paare von Beispielen nach Plausibilität sortiert werden.
  2. Uncertainty-aware Loss: Berücksichtigt die Standardabweichung der Annotatoren als Toleranzgrenze. Fehler innerhalb der menschlichen Uneinigkeit werden nicht bestraft.
Pooling: Mittelwert-Pooling über alle Tokens (statt nur [CLS]) erwies sich als robuster.

C. LLM-Prompting (Large Language Models)

Dieser Ansatz nutzt Prompting ohne Fine-Tuning, wobei zwei Strategien verglichen werden:

P1 (Few-Shot): Das Modell erhält fünf Beispiele (je eines pro Bewertungsklasse) aus den Trainingsdaten.
P2 (Strukturiertes Prompting mit Entscheidungsregeln): Dies ist der Kernbeitrag. Statt Beispielen erhält das Modell explizite Kriterien:
1. Komponentenweise Bewertung: Das Modell bewertet separat Precontext, Zielsatz und Endsatz.
2. Explizite Regeln: Z. B. „Wenn der Endsatz die Bedeutung klar widerspricht, muss die Bewertung 1 oder 2 sein"; „Eine Bewertung von 5 erfordert eine explizite Bestätigung im Endsatz".
3. Unparteiische Rolle: Das Modell wird als neutraler Bewerter instruiert, der sich nur auf den gegebenen Text stützt.
Genutzte Modelle: Verschiedene GPT-Modelle (GPT-4o, GPT-4.1, GPT-5 Varianten), Llama 3 und Ministral.

3. Wichtige Ergebnisse

Die Ergebnisse auf dem Testset zeigen deutliche Unterschiede zwischen den Ansätzen:

Embedding-Methoden scheitern: Diese erzielten die schlechtesten Ergebnisse (Spearman-Korrelation $\rho < 0.14$ ). Statische Ähnlichkeitsmetriken können das narrative Reasoning über mehrere Sätze hinweg nicht erfassen.
Fine-Tuning ist mittelmäßig: Fine-tuned Modelle (insbesondere DeBERTa-large + LoRA mit Unsicherheits-Loss) erreichten $\rho \approx 0.49$ bis $0.53$. Sie übertrafen Embedding-Methoden deutlich, generalisierten aber schlecht auf ungesehene Homonyme im Testset.
Strukturiertes Prompting dominiert: Der Ansatz mit strukturierten Prompts (P2) und Entscheidungsregeln erzielte die besten Ergebnisse.
- Bestes System: GPT-4o mit strukturiertem Prompting (P2) erreichte eine Spearman-Korrelation von $\rho = 0.731$ und eine Genauigkeit (Acc.) von $0.794$.
- Vergleich: GPT-4o (P2) schnitt besser ab als GPT-5.2 (P2), was darauf hindeutet, dass für diese Aufgabe die Prompt-Design-Qualität wichtiger ist als die reine Modellgröße.
- Der Wechsel von Few-Shot (P1) zu strukturierten Regeln (P2) bei GPT-5.2 führte zu einer signifikanten Steigerung von $\rho = 0.635$ auf $0.717$.

4. Fehleranalyse

Hohe Annotatoren-Abweichung: Proben mit hoher Unsicherheit ( $\sigma \ge 1.0$ ) sind am schwierigsten vorherzusagen (höherer MAE).
Mittlere Bewertungen: Bewertungen im mittleren Bereich (3.5–4.5) sind schwieriger zu treffen als extreme Werte (1 oder 5), da sie nuancierte Urteile erfordern.
Fehlerquellen: Das Modell neigt dazu, sich an einem einzelnen Teil der Erzählung festzuhalten (z. B. starkes Precontext), wenn der Endsatz eine andere Bedeutung bestätigt, was zu katastrophalen Fehlern führt. Strukturierte Regeln helfen jedoch, diese Verzerrung zu korrigieren.

5. Bedeutung und Fazit

Das Papier zeigt, dass für die Bewertung der Plausibilität von Wortbedeutungen in narrativen Kontexten explizites Reasoning und strukturierte Anleitung effektiver sind als reines Fine-Tuning oder statische Embedding-Ähnlichkeiten.

Hauptbeitrag: Die Entwicklung einer strukturierten Prompting-Strategie mit expliziten Entscheidungsregeln, die die Bewertung in Komponenten zerlegt und Kalibrierungsregeln anwendet.
Erkenntnis: Prompt-Design ist für diese spezifische Aufgabe entscheidender als die Skalierung des Modells.
Zukunft: Die Autoren schlagen Ensemblemethoden vor, die Fine-Tuning-Modelle mit LLM-Vorhersagen kombinieren, sowie die Verbesserung von Prompts für den Umgang mit konfligierenden Kontexten.

Zusammenfassend demonstriert das NCL-UoR-System, dass die Zerlegung komplexer linguistischer Aufgaben in strukturierte, regelbasierte Schritte für Large Language Models der vielversprechendste Weg zur Lösung von SemEval-Aufgaben ist.