AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Detective: Hoe een AI de oorzaak van een gebeurtenis vond

Stel je voor dat je een detective bent die een raadsel moet oplossen. Iemand zegt: "Het raam is kapot." Je hebt een stapel krantenartikelen en nieuwsberichten voor je. Je taak is om te raden: Wat heeft het raam kapot gemaakt? Was het een steen? Een bal? Of misschien een vogel?

Dit is precies wat de kunstmatige intelligentie (AI) moest doen in de SemEval 2026 Task 12. De AI kreeg een gebeurtenis en een hoop informatie, en moest de meest waarschijnlijke oorzaak vinden. Dit heet "abductief redeneren": het vinden van de beste verklaring voor iets, zelfs als je niet alle stukjes van de puzzel hebt.

Het team van de Technische Universiteit van Athene (AILS-NTUA) won deze wedstrijd met een systeem dat 95% van de vragen goed had. Hoe deden ze dat? Ze gebruikten een slimme drie-stappen-methode.

🚀 Stap 1: De Slimme Netwerker (Zoeken zonder rommel)

Stel je voor dat je een enorme bibliotheek binnenloopt om één specifiek boek te vinden. Als je gewoon alles doorzoekt, word je gek van alle rommel.

Het probleem: De AI kreeg duizenden documenten, maar veel daarvan waren "distractors" (afleidingen). Ze leken op het onderwerp, maar hadden niets te maken met de echte oorzaak.
De oplossing: Het team bouwde een digitaal web (een grafiek). Ze verbonden documenten met elkaar op basis van hoe sterk ze op elkaar leken.
- De analogie: Stel je een spinnenweb voor. Als je aan één draadje trekt (je zoekt een vraag), trilt het hele web. Het systeem kijkt welke documenten "in de buurt" hangen van de belangrijkste stukken.
- Het resultaat: Het systeem filtert de rommel eruit en houdt alleen de documenten over die echt met elkaar verbonden zijn. Het is alsof je een schatkaart tekent in plaats van blindelings te graven.

🧠 Stap 2: De Nadenkende Filosoof (De AI die nadenkt)

Nu heeft de AI de juiste documenten. Maar een AI is soms te snel van stof; hij gispt een antwoord voordat hij goed heeft nagedacht.

Het probleem: AI's hebben de neiging om te "hallucineren" (dingen verzinnen) of te snel een conclusie te trekken.
De oplossing: Ze gebruikten een slimme truc genaamd "Reflective Prompting".
- De analogie: In plaats van de AI direct te vragen: "Wat is het antwoord?", zeggen ze: "Schrijf eerst je gedachten op in een dagboek, analyseer elke optie, en denk na over waarom het wel of niet kan. Schrijf pas daarna het antwoord op."
- Ze lieten de AI haar eigen antwoorden verbeteren door te kijken naar wat andere, vergelijkbare AI's deden. Het is alsof je een groep detectives bij elkaar zet die elkaars werk controleren voordat ze de politie bellen.

🛡️ Stap 3: De Strenge Controleur (De laatste check)

Zelfs slimme detectives maken fouten. Soms zeggen ze twee dingen die niet samen kunnen, of ze vergeten een belangrijke optie.

Het probleem: De AI kon soms zeggen: "Het was een steen" én "Het was een vogel" terwijl de vraag zei: "Kies de enige oorzaak". Of ze kozen voor een optie die exact hetzelfde was als een andere, maar ze kozen er maar één.
De oplossing: Ze voegden een automatische controle toe na het antwoord.
- De analogie: Stel je voor dat je een sollicitatiebrief schrijft. Je hebt een vriend die zegt: "Hé, je hebt hier een foutje gemaakt, en je hebt twee keer hetzelfde geschreven, dat is raar." Die vriend corrigeert je voordat je de brief verstuurt.
- Dit systeem gebruikte 8 regels om te zorgen dat het antwoord logisch klopte. Als de AI zei "Geen van bovenstaande" én tegelijkertijd "Het was een steen", dan wist de controleur: "Nee, dat kan niet, kies er één."

🔍 Wat leerden we van de fouten? (De "Inductieve Bias")

Het team keek ook naar waar de AI's het vaakst fout zaten. Ze ontdekten drie vaste patronen, alsof de AI's allemaal dezelfde "smaak" hebben:

De "Korte Keten" Bias: De AI houdt van korte verhalen. Als de oorzaak een lang proces was (bijv. A leidde tot B, wat leidde tot C), koos de AI vaak alleen voor C en vergeten ze A en B. Ze willen het "laatste stukje" van de keten, niet het hele verhaal.
De "Dichtstbijzijnde" Bias: De AI kiest vaak het gebeurtenis dat het laatst plaatsvond, in plaats van de echte oorzaak die maanden geleden begon. Het is alsof je denkt dat de regen de oorzaak is van een nat pad, terwijl het eigenlijk een lekke kraan was die al een uur lekte.
De "Drama" Bias: De AI kiest voor het meest spectaculaire antwoord. Als er een optie is "Er was een explosie" en een andere "Er was een klein lek", kiest de AI vaak voor de explosie, zelfs als het lek de echte oorzaak was.

🏆 Het Eindresultaat

Door deze drie stappen te combineren (Slim zoeken + Diep nadenken + Strakke controle), werd hun systeem de beste in de wereld voor deze specifieke taak.

Kort samengevat:
Ze lieten de AI niet alleen werken. Ze gaven haar een netwerk om de juiste informatie te vinden, een dagboek om haar gedachten te ordenen, en een controleur om de laatste foutjes eruit te halen. Zo veranderden ze een slimme, maar soms slordige robot, in een meester-detective.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De taak, SemEval-2026 Task 12, richt zich op abductieve redenering voor gebeurtenissen (Abductive Event Reasoning). Het doel is om voor een gegeven werkelijke gebeurtenis en een set van contextdocumenten de meest directe en plausibele oorzaak(en) te identificeren.

Uitdaging: Abductie vereist het afleiden van de meest waarschijnlijke oorzaak uit onvolledige informatie, wat fundamenteel anders is dan deductie of inductie.
Complexiteit: Het is een meerkeuzevraag met meerdere mogelijke juiste antwoorden (multi-label). De context bevat vaak afleidende documenten (distractors) en de causale ketens kunnen complex en multi-staps zijn.
Huidige beperkingen: Grote Taalmodellen (LLMs) hebben moeite met het onderscheiden van ware oorzakelijke relaties van correlaties, neigen naar conservatieve antwoorden (onder-selectie) en vertonen systematische bias in hun redenering.

Methodologie

Het team van AILS-NTUA (National Technical University of Athens) ontwikkelde een driefasen-pijplijn die de prestaties van state-of-the-art LLMs aanzienlijk verbetert.

1. Retrieval: Filtering van Distractors via Grafieken

In plaats van alleen de meest relevante documenten te zoeken, construeert het systeem een hybride documentgrafiek per onderwerp.

Hybride Similariteit: De kanten tussen documenten worden gewogen op basis van een combinatie van dichte embedding-similariteit (Cohere Embed v4) en lexische similariteit (BM25+ met entiteitsversterking). De formule is: $w = \alpha \cdot sim_{sem} + (1-\alpha) \cdot sim_{lex}$ , waarbij $\alpha=0.7$ .
Navigatie: Het systeem start bij "entry points" (top 3 dichte + top 2 spaarse matches) en voert een Breadth-First Search (BFS) uit over de volledige verbonden component.
Doel: Dit maximaliseert het recall (het vinden van alle relevante documenten, zelfs indirect verbonden) ten koste van precisie, omdat een ontbrekend document een causale keten kan verbreken.
Caching: Omdat vragen binnen hetzelfde onderwerp veel overlap hebben, wordt de context per onderwerp gecachet, wat leidt tot een 91% cache-hit rate en een 87% kostenreductie.

2. Inference: Reflectieve Prompting en Structurering

Het LLM (gebruikmakend van diverse modellen zoals Claude Sonnet 4.5 Thinking, GPT-5.2, etc.) wordt aangestuurd via een geoptimaliseerde prompt.

Structuur: Een XML-gebaseerde prompt dwingt het model tot een "analyse-voor-antwoord" formaat. Het model moet eerst een <analysis> blok genereren waarin het elke optie logisch toetst aan de context, gevolgd door een <answer> blok.
Prompt Ontwerp: Het team gebruikte GEPA (Reflective Prompt Evolution) via DSPy om prompt-ontwerpen te exploreren. In plaats van de gegenereerde prompts direct te gebruiken, werden de principes die GEPA ontdekte (zoals prioritering van causale taal en omgang met duplicaten) geïntegreerd in een handmatig ontworpen prompt.
Self-Consistency: Er worden $k=3$ responsen gegenereerd bij een temperatuur van $\tau=1.0$ . De uiteindelijke keuze wordt gemaakt via meerderheidsstemming per optie.

3. Post-Hoc Consistentie-Handhaving (Deterministische Heuristieken)

Dit is de meest kritieke innovatie. Na de LLM-inference worden acht deterministische heuristieken toegepast om logische inconsistenties te corrigeren.

Mutual Exclusivity: Als het optie "Geen van de anderen" is geselecteerd, mogen geen andere opties worden geselecteerd.
Duplicaat Consistentie: Als twee opties identieke tekst bevatten, moeten ze dezelfde waarheidswaarde hebben (beide wel of beide niet).
Cross-Vraag Checks: Inconsistenties worden doorgegeven aan "sibling" vragen (vragen binnen hetzelfde onderwerp) om globale consistentie te garanderen.
Iteratie: Dit proces wordt iteratief uitgevoerd tot convergentie (meestal 2 iteraties).

Belangrijkste Bijdragen

Winnaarsysteem: Een drie-staps systeem dat de leaderboard van de evaluatiefase won met een nauwkeurigheidsscore van 0.95.
Foutanalyse en Bias: Een uitgebreide analyse van 14 modellen (7 families) die drie gedeelde inductieve bias blootlegde:
- Onvolledigheid van causale ketens: Modellen kiezen vaak slechts één schakel in een keten en negeren de rest.
- Voorkeur voor nabije oorzaken: Modellen geven de voorkeur aan de meest recente antecedent boven vereiste voorwaarden (enabling conditions).
- Salientie-bias: Modellen kiezen voor dramatische, nieuwsachtige oorzaken in plaats van subtiele bijdragende factoren.
Systematische Fouten: De analyse toont aan dat deze fouten systematisch zijn (51% reductie in het aantal gevonden oorzaken) en niet model-specifiek, wat wijst op fundamentele beperkingen in huidige LLMs voor multi-label causale redenering.

Resultaten

Algemene Prestatie: Het systeem behaalde 0.95 op de testset (612 vragen).
Impact van Componenten:
- Post-hoc heuristieken: Leverden de grootste winst op (+5.6 pp voor Claude Sonnet 4.5 Thinking, van 0.828 naar 0.884 op de dev-set).
- Retrieval: Verbeterde vooral kleinere modellen aanzienlijk (+9 pp voor Haiku 3.5), maar had een marginaal effect op de grootste modellen.
- Ensemble: Een ensemble van drie modellen (Claude + GPT + Gemini) zonder heuristieken scoorde 0.926, wat lager was dan het beste individuele model met heuristieken (0.952). Dit benadrukt dat consistentie-handhaving belangrijker is dan model-diversiteit alleen.
Foutpatronen: Van de 42 vragen waarop geen enkel model een exact juiste match had, faalden 38 door onder-selectie (het kiezen van te weinig antwoorden). De "Oracle" (beste model per vraag kiezen) zou 0.895 halen, wat aangeeft dat er nog ruimte is voor verbetering via ensemble-methoden.

Betekenis en Conclusie

Dit paper demonstreert dat voor complexe causale redeneringstaken, puur het schalen van LLMs niet voldoende is. De combinatie van grafiekgebaseerde retrieval (voor contextbeheer), reflectieve prompt-ontwikkeling (voor betere instructie) en vooral deterministische post-hoc consistentie (voor het corrigeren van logische fouten) is cruciaal voor het bereiken van menselijke of superieure prestaties.

De bevindingen suggereren dat toekomstige systemen voor causale redenering moeten focussen op het oplossen van systematische bias (zoals de neiging tot onder-selectie) en het gebruik van hybride architecturen die de sterktes van LLMs combineren met strikte logische regels. De code is beschikbaar op GitHub, wat de reproduceerbaarheid en verdere research in dit domein faciliteert.