AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat vergetelijke assistent hebt die je helpt bij het beantwoorden van vragen. Deze assistent is een Grote Taalmodel (LLM). Hij kent heel veel feiten, maar zijn kennis is "bevroren" op het moment dat hij is gemaakt. Als er morgen iets nieuws gebeurt, weet hij het niet, tenzij je hem een boekje geeft.

Dit artikel beschrijft hoe een team van onderzoekers van de TU Delft (NTUA) een slimme manier heeft bedacht om deze assistent te laten werken in een gesprek (waarbij je meerdere vragen achter elkaar stelt), in plaats van alleen losse vragen. Ze deden dit voor een grote wedstrijd genaamd SemEval-2026.

Hier is hoe hun systeem werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Vergetelijke" Assistent

Stel je voor dat je in een gesprek met iemand bent.

Vraag 1: "Wie is de president van Frankrijk?"
Vraag 2: "Hoe oud is hij?"

Als je de tweede vraag alleen aan de assistent geeft, zonder de context van de eerste, denkt hij misschien: "Wie is 'hij'? Een vriend? Een hond?" De assistent raakt de draad kwijt. Dit noemen ze multi-turn RAG (Retrieval-Augmented Generation). Het doel is dat de assistent de draad vasthoudt en het juiste antwoord vindt in een berg documenten.

2. Oplossing Deel 1: De "Vijf Vrienden" Strategie (Zoeken)

In de eerste taak moesten ze de juiste stukken tekst vinden in een enorme bibliotheek.

De oude manier: Je vraagt één vriend om een boek te zoeken. Soms zoekt hij verkeerd.
Hun nieuwe manier: Ze sturen vijf verschillende vrienden (die allemaal een andere manier van denken hebben) om hetzelfde boek te zoeken.
- Vriend 1 is heel direct en kort.
- Vriend 2 gebruikt de specifieke vakjargon van de bibliotheek.
- Vriend 3 bedenkt een hypothetisch verhaal over hoe het antwoord eruit zou zien.
- Vriend 4 denkt stap voor stap na.
- Vriend 5 pikt de belangrijkste namen en woorden eruit.

Ze laten al deze vrienden zoeken in dezelfde bibliotheek (geen verschillende bibliotheken, want dat maakt het verwarrend). Vervolgens laten ze een slimme manager (een algoritme) de resultaten van al deze vrienden samenvoegen. Als drie vrienden zeggen "Dit boek is goed" en twee zeggen "Nee", telt de manager dat slim mee.

Het resultaat: Ze wonnen de eerste prijs voor het vinden van de juiste boeken. Het bewijst dat het beter is om één goede bibliotheek te hebben met vijf verschillende zoekvragen, dan vijf verschillende bibliotheken met één vraag.

3. Oplossing Deel 2: De "Drie-Stage Productielijn" (Antwoorden)

Als ze de juiste boeken hebben gevonden, moeten ze een antwoord schrijven. Maar hier is een valkuil: de assistent kan gaan "hallucineren" (dichtjes verzinnen die niet in de boeken staan).

Ze bouwden een productielijn met drie checkpoints, net als in een fabriek:

De Controleur: Kijkt eerst: "Zijn er überhaupt antwoorden in de boeken?" Zo niet, dan zegt de assistent beleefd: "Ik heb hier niets over gevonden" in plaats van iets te verzinnen.
De Schrijvers: Twee verschillende schrijvers (robots) schrijven elk een antwoord op basis van de gevonden stukjes tekst. De ene schrijft heel nauwkeurig, de andere iets natuurlijker.
De Jury: Een jury kijkt naar beide antwoorden. Ze vragen: "Is dit eerlijk gebaseerd op de tekst?" en "Klinkt dit als een normaal mens?". Ze kiezen het beste antwoord.

De creatieve twist: Ze laten de assistent niet zomaar antwoorden. Ze dwingen hem om te "plakken" (woorden uit de tekst over te nemen) maar niet te veel, zodat het niet klinkt als een kopie-paste werkje. Het moet een balans zijn tussen eerlijkheid en natuurlijkheid.

4. De Grote Uitdaging: De "Onmogelijke Vraag"

In de derde taak moesten ze alles doen: zoeken én antwoorden. Hier botsten ze op een muur.
Soms is de vraag simpelweg niet te beantwoorden met de informatie die ze hebben (bijvoorbeeld: "Wat is het weer in Parijs in 2030?" terwijl ze alleen boeken van 2023 hebben).

Het probleem: De assistent is zo graag behulpzaam, dat hij liever iets verzint dan toe te geven dat hij het niet weet.
De oplossing: Ze bouwden een poortwachter. Deze poortwachter moet heel streng zijn. Als de kans klein is dat het antwoord klopt, moet de poortwachter de deur dichtdoen en zeggen: "Ik kan dit niet beantwoorden."
De les: De grootste fout in hun systeem kwam niet omdat ze de verkeerde boeken vonden, maar omdat ze soms dachten dat ze een antwoord konden geven, terwijl ze dat eigenlijk niet konden.

Samenvatting in één zin

Het team van NTUA heeft een slim systeem gebouwd dat vijf verschillende manieren gebruikt om te zoeken in een bibliotheek, en daarna een strenge jury laat kiezen tussen twee antwoorden, zodat de assistent niet gaat verzinnen maar eerlijk blijft, zelfs als hij het antwoord niet weet.

Ze wonnen de eerste prijs voor het vinden van informatie en de tweede prijs voor het geven van goede antwoorden, omdat hun systeem beter begreep wanneer hij moest zwijgen dan wie het meeste wist.

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

1. Het Probleem: De "Vergetelijke" Assistent

2. Oplossing Deel 1: De "Vijf Vrienden" Strategie (Zoeken)

3. Oplossing Deel 2: De "Drie-Stage Productielijn" (Antwoorden)

4. De Grote Uitdaging: De "Onmogelijke Vraag"

Samenvatting in één zin

Titel: AILS-NTUA bij SemEval-2026 Taak 8: Evaluatie van Multi-Turn RAG-gesprekken

1. Het Probleem

2. Methodologie

A. Ophaling (Taak A)

B. Generatie (Taak B & C)

C. End-to-End RAG (Taak C)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

1. Het Probleem: De "Vergetelijke" Assistent

2. Oplossing Deel 1: De "Vijf Vrienden" Strategie (Zoeken)

3. Oplossing Deel 2: De "Drie-Stage Productielijn" (Antwoorden)

4. De Grote Uitdaging: De "Onmogelijke Vraag"

Samenvatting in één zin

Titel: AILS-NTUA bij SemEval-2026 Taak 8: Evaluatie van Multi-Turn RAG-gesprekken

1. Het Probleem

2. Methodologie

A. Ophaling (Taak A)

B. Generatie (Taak B & C)

C. End-to-End RAG (Taak C)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models