AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie ein Detektiv-Team die Ursache von Ereignissen findet – Die Geschichte des AILS-NTUA-Systems

Stellen Sie sich vor, Sie sind ein Detektiv in einer riesigen, chaotischen Bibliothek. Jemand kommt herein und sagt: „Die Weltmeere sind gestiegen!" (Das ist das Ereignis). Ihre Aufgabe ist es, herauszufinden, warum das passiert ist. In der Bibliothek liegen tausende Zeitungen, Berichte und Notizen (das ist der Kontext). Aber viele davon sind nur Ablenkungen oder erzählen von völlig anderen Dingen.

Das Team von der Technischen Universität Athen (AILS-NTUA) hat für einen großen Wettbewerb (SemEval 2026) genau diese Aufgabe gelöst. Sie haben ein System gebaut, das nicht nur die beste Antwort findet, sondern es mit einer Genauigkeit von 95 % schafft – das war der erste Platz!

Hier ist, wie ihr System funktioniert, erklärt mit einfachen Bildern:

1. Der intelligente Sucher (Die Graph-Retrieval-Methode)

Stellen Sie sich die Dokumente in der Bibliothek nicht als Stapel Papier vor, sondern als ein riesiges Spinnennetz. Jedes Dokument ist ein Knoten im Netz. Wenn zwei Dokumente über das gleiche Thema sprechen, sind sie durch einen Faden verbunden.

Das Problem: Wenn Sie nur nach einem Stichwort suchen, finden Sie vielleicht ein Dokument, das zwar das richtige Wort enthält, aber völlig falsch ist (ein „Ablenkungsmanöver").
Die Lösung: Das System nutzt zwei Arten von Suchlinsen gleichzeitig: eine, die nach der Bedeutung sucht (wie ein Mensch, der den Sinn versteht), und eine, die nach Wörtern sucht (wie ein Computer, der Buchstaben zählt).
Der Trick: Es sucht nicht nur das eine Dokument, das am besten passt. Es folgt den Fäden im Spinnennetz. Wenn Dokument A mit B verbunden ist und B mit C, dann holt es sich auch C. So stellt es sicher, dass es keine wichtigen Hinweise überspringt, die vielleicht nur indirekt mit dem Ereignis zu tun haben. Es filtert die „Störfaktoren" (die Dokumente ohne Fäden) heraus.

2. Der nachdenkliche KI-Detektiv (LLM mit Reflexion)

Nun hat das System die richtigen Papiere. Jetzt kommt die Künstliche Intelligenz (KI) ins Spiel. Aber diese KI ist nicht wie ein Roboter, der einfach nur schnell tippt. Sie ist wie ein Detektiv, der sich einen Moment Zeit nimmt, um nachzudenken.

Der „Gedankenblock": Bevor die KI eine Antwort gibt, muss sie ihre Gedanken laut aussprechen (in einem <analysis>-Bereich). Sie muss für jede mögliche Erklärung prüfen: „Passt das wirklich? Gibt es einen Beweis im Text? Oder ist das nur eine Vermutung?"
Der Spiegel-Test: Das Team hat die KI trainiert, sich selbst zu hinterfragen. Sie hat eine Art „Spiegel" (eine Technik namens Reflective Prompt Evolution), der ihr sagt: „Hey, du hast hier einen Fehler gemacht, weil du zu schnell warst. Versuche es noch einmal und sei genauer." Durch dieses ständige Üben und Korrigieren wurde die KI immer schlauer.

3. Der strengen Prüfer (Post-hoc Konsistenz)

Selbst die besten Detektive machen manchmal dumme Fehler, wenn sie müde sind. Das System hat daher einen dritten Schritt: einen strengen Prüfer, der am Ende alles noch einmal durchgeht.

Logik-Check: Der Prüfer achtet auf logische Widersprüche. Zum Beispiel: Wenn die KI sagt „Keine der Antworten ist richtig" und gleichzeitig „Antwort A ist richtig", ist das ein logischer Fehler. Der Prüfer korrigiert das sofort.
Duplikate: Wenn zwei Antwortmöglichkeiten exakt denselben Text haben, müssen sie auch beide als richtig oder beide als falsch markiert werden. Der Prüfer sorgt dafür, dass die KI hier nicht durcheinanderkommt.
Das Team-Prinzip: Das System läuft diesen Prozess oft zweimal durch, bis sich nichts mehr ändert und alles logisch sauber ist.

Was haben sie dabei gelernt? (Die Fehleranalyse)

Das Team hat sich angesehen, wo die KIs (nicht nur ihre eigene, sondern 14 verschiedene) versagt haben. Sie entdeckten drei „typische menschliche Fehler", die auch die KI macht:

Der Kettenreaktions-Fehler: Die KI sieht oft nur den letzten Schritt einer Kette (z. B. „Der Präsident trat zurück") und vergisst den Anfang (z. B. „Die Wirtschaftskrise"). Sie sieht das Ende, aber nicht den Anfang.
Der „Nächstliegend"-Fehler: Die KI wählt oft das Ereignis, das zeitlich am nächsten liegt, auch wenn es nicht die wahre Ursache ist. (Wie wenn man sagt: „Der Hahn hat gekräht, also ist die Sonne aufgegangen", statt zu verstehen, dass die Sonne den Hahn weckt).
Der „Sensation"-Fehler: Die KI mag dramatische Geschichten. Wenn es eine langweilige, aber wahre Ursache und eine aufregende, aber falsche gibt, wählt sie oft die aufregende.

Das Fazit

Das System von AILS-NTUA hat gewonnen, weil es nicht nur auf eine „magische" KI vertraut hat. Es hat ein Drei-Stufen-System gebaut:

Ein Suchnetz, das die richtigen Informationen findet.
Eine nachdenkliche KI, die ihre Arbeit erklärt und verbessert.
Einen strengen Prüfer, der logische Fehler am Ende beseitigt.

Es ist wie ein perfekt eingespieltes Team aus einem Sucher, einem Denker und einem Prüfer, das gemeinsam die besten Antworten findet, während andere nur schnell raten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Kontext

Das Paper adressiert die SemEval-2026 Task 12, die sich mit abduktiver Ereignisbegründung (Abductive Event Reasoning) befasst. Das Ziel ist es, für ein gegebenes reales Ereignis und einen Kontext aus mehreren Dokumenten die direkteste und plausibelste Ursache (oder Ursachen) zu identifizieren.

Herausforderung: Im Gegensatz zu deduktivem oder induktivem Denken erfordert abduktives Schlussfolgern das Inferieren der besten Erklärung aus unvollständigen Informationen. Dies ist für Large Language Models (LLMs) besonders schwierig, da es parallele Denkströme und implizite kausale Zuschreibungen erfordert, anstatt deterministische Regeln anzuwenden.
Aufgabenformat: Es handelt sich um eine Multiple-Choice-Aufgabe mit vier Antwortoptionen (A–D), wobei mehrere Optionen korrekt sein können oder „Keine der anderen ist korrekt" die richtige Antwort ist. Die Bewertung erfolgt durch Partial-Credit (Teilschritte werden belohnt).
Schwierigkeitsgrad: Die Datenmenge enthält viele mehrdeutige Fälle, und 43,6 % der Fragen im Entwicklungssatz haben mehrere korrekte Antworten, was die Aufgabe komplexer macht als klassische Single-Label-Klassifizierung.

2. Methodik: Ein Drei-Stufen-Pipeline-Ansatz

Das vorgestellte System von AILS-NTUA kombiniert drei Hauptkomponenten, um die Leistung zu maximieren:

Stufe 1: Graph-basierte Suche und Distraktor-Filterung

Statt alle verfügbaren Dokumente einfach in den Kontext zu laden, wird ein hybrider Dokumentengraph konstruiert.

Graph-Aufbau: Für jedes Thema wird ein Ähnlichkeitsgraph $G=(V, E)$ erstellt, wobei Knoten Dokumente und Kanten eine hybride Ähnlichkeitsmetrik darstellen. Diese kombiniert dichte Embeddings (Cohere Embed v4) und sparse Signale (BM25+ mit Entity-Boosting) mit einem Gewicht von $\alpha=0,7$ für dichte und $0,3$ für sparse Signale.
Suchstrategie: Anstatt nur die Top-Ranking-Dokumente zu nehmen, werden Einstiegspunkte (3 dichte + 2 sparse) identifiziert. Anschließend wird eine Breitensuche (BFS) über den gesamten verbundenen Komponenten des Graphen durchgeführt.
Ziel: Dies priorisiert die Recall (Vollständigkeit), um sicherzustellen, dass keine kritischen Kausalketten durch fehlende Dokumente unterbrochen werden. Unverbundene Dokumente werden als potenzielle Distraktoren gefiltert.
Caching: Da Fragen desselben Themas stark überlappende Dokumentensätze haben, wird ein themenweiter Kontext zwischengespeichert (Cache-Hit-Rate von 91 %), was die Kosten um 87 % senkt.

Stufe 2: LLM-basierte abduktive Begründung mit reflektiver Prompt-Optimierung

Der Kern des Systems ist ein LLM, das mit einem strukturierten Prompt arbeitet.

Strukturiertes Prompting: Der Prompt erzwingt ein „Analysis-before-Answer"-Format (XML-basiert). Das Modell muss zuerst eine Analyse für jede Option liefern (Chain-of-Thought), bevor es eine finale Antwort gibt. Dies dient als strukturierter Scratchpad.
GEPA-basierte Optimierung: Die Autoren nutzen GEPA (Reflective Prompt Evolution) über das Framework DSPy, um Prompt-Designs automatisch zu optimieren. Anstatt die generierten Prompts direkt als Blackbox zu nutzen, extrahieren sie die darin enthaltenen Heuristiken (z. B. Priorisierung direkter kausaler Sprache, Umgang mit Duplikaten) und integrieren diese in den finalen manuell gestalteten Prompt.
Self-Consistency: Um die Stabilität zu erhöhen, werden $k=3$ Antworten bei einer Temperatur von $\tau=1,0$ generiert und per Mehrheitsvoting aggregiert.

Stufe 3: Post-hoc Konsistenz-Durchsetzung (Deterministische Heuristiken)

Dieser Schritt ist entscheidend für den Sieg und korrigiert logische Inkonsistenzen, die das LLM macht, ohne weitere LLM-Aufrufe zu benötigen.

Heuristiken: Es werden acht deterministische Regeln angewendet, die iterativ bis zur Konvergenz (meist 2 Iterationen) laufen:
1. Ausschluss von „None": Die Option „Keine der anderen" ist gegenseitig exklusiv zu allen anderen.
2. Duplikatkonsistenz: Identische Textoptionen müssen denselben Wahrheitswert haben.
3. Cross-Question-Checks: Da Fragen desselben Themas denselben Kontext teilen, werden logische Schlussfolgerungen auf verwandte Fragen propagiert.
4. Single-Remaining-Closure: Wenn nur eine Option übrig bleibt, wird sie automatisch gewählt.
Wirkung: Diese Heuristiken erzwingen logische Invarianten, die das Modell oft verletzt (z. B. gleichzeitige Auswahl von „None" und anderen Optionen).

3. Wichtige Beiträge

Systemarchitektur: Ein Drei-Stufen-Pipeline, die Graph-Retrieval, reflektives Prompting und deterministische Nachbearbeitung kombiniert, um den ersten Platz auf der Leaderboard zu erreichen (Genauigkeit 0,95).
Fehleranalyse über 14 Modelle: Eine umfassende Analyse von 14 Modellen (7 Familien) deckt drei gemeinsame induktive Verzerrungen (Inductive Biases) auf, die systematische Fehlerquellen darstellen:
- Unvollständigkeit kausaler Ketten: Modelle wählen oft nur einen Link einer mehrstufigen Kausalkette aus.
- Präferenz für proximale Ursachen: Modelle bevorzugen die zeitlich oder strukturell nächste Ursache gegenüber ermöglichenden Bedingungen (Enabling Conditions).
- Salienz-Bias: Modelle wählen dramatische, nachrichtenwürdige Ursachen anstelle subtilerer, aber kausal relevanter Faktoren.
Quantifizierung der Verzerrung: Die Analyse zeigt, dass diese Verzerrungen zu einer konservativen Ursachenwahl führen (Unter-Selektion). In 83 % der Fehlerfälle wählen Modelle nur eine Option, obwohl mehrere korrekt wären (51 % Reduktion der Anzahl der Ursachen im Vergleich zum Goldstandard).
Öffentlichkeit: Der Code ist auf GitHub verfügbar.

4. Ergebnisse

Leistung: Das System erreichte auf dem Evaluation-Leaderboard eine Genauigkeit von 0,95 (im Vergleich zu einem Basis-Score von ca. 0,828 für das beste reine LLM ohne Heuristiken).
Beitrag der Komponenten:
- Die graph-basierte Suche brachte marginale Verbesserungen für große Modelle, aber signifikante (+9 pp) für kleinere Modelle.
- Die Post-hoc-Heuristiken waren der größte Treiber für den Erfolg und verbesserten den Score von 0,828 auf 0,884 im Entwicklungssatz (+5,6 pp). Auf dem Testset lag die Verbesserung bei +4,8 pp.
- Selbstkonsistenz (Self-Consistency) allein hatte nur einen geringen Effekt; die Kombination mit Heuristiken war entscheidend.
Ensemble vs. Einzelmodell: Ein Ensemble aus drei verschiedenen Modellfamilien erreichte 0,926, blieb aber hinter dem besten einzelnen Modell mit Heuristiken (Claude Sonnet 4.5 Thinking: 0,952) zurück. Dies deutet darauf hin, dass die Nachbearbeitung effektiver ist als einfaches Ensembling.
Obergrenze: Ein „Oracle", das für jede Frage das beste Modell auswählt, erreicht nur 0,895. Dies zeigt, dass selbst die besten Modelle noch Lücken haben und dass die aktuellen Fehler eher systemisch als modell-spezifisch sind.

5. Bedeutung und Fazit

Das Paper demonstriert, dass reine LLM-Leistung für komplexe abduktive Aufgaben nicht ausreicht. Der Erfolg des Systems liegt in der Kombination von:

Ressourcen-Management: Effiziente Suche und Caching durch Graph-Techniken.
Strukturierung: Nutzung von Prompt-Engineering, um Denkprozesse zu erzwingen.
Logischer Nachbearbeitung: Die Anwendung deterministischer Regeln zur Korrektur von Halluzinationen und logischen Widersprüchen ist entscheidender als die Wahl des spezifischen LLM-Modells.

Die identifizierten systematischen Verzerrungen (insbesondere die Unter-Selektion bei mehrfachen Antworten und die Präferenz für proximale Ursachen) geben wertvolle Hinweise für die zukünftige Entwicklung von Modellen, die in unsicheren, realweltlichen Szenarien kausale Schlüsse ziehen müssen. Die Arbeit zeigt, dass hybride Ansätze, die symbolische Logik (Heuristiken) mit neuralem Reasoning kombinieren, derzeit den State-of-the-Art in solchen Benchmarks darstellen.