Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Het TREC 2025 RAG-track bouwt voort op de editie van 2024 door complexe, meerzinnige zoekopdrachten en een uitgebreide evaluatieframework te introduceren om betrouwbare en feitelijke systemen voor retrieval-augmented generation te bevorderen.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De TREC 2025 RAG-wedstrijd: Een zoektocht naar de waarheid in een zee van informatie

Stel je voor dat je een enorme bibliotheek binnenloopt, maar in plaats van boeken op de planken, zitten er miljarden stukjes tekst. Je wilt een antwoord op een complexe vraag, zoals: "Hoe beïnvloeden sport, geld en cultuur elkaar, en wat betekent dat voor de toekomst?"

Vroeger was het zoeken in zo'n bibliotheek simpel: je fluisterde een paar sleutelwoorden (bijv. "sport", "geld") en de bibliothecaris gaf je een stapel boeken die die woorden bevatten. Maar in 2025 is dat niet meer genoeg. Mensen willen geen simpele lijsten meer; ze willen een verhaal, een diepgaand antwoord dat alle stukjes van de puzzel aan elkaar plakt.

De TREC 2025 RAG-wedstrijd (Retrieval Augmented Generation) is precies zo'n wedstrijd voor slimme computersystemen. Het is een grote test om te zien welke AI het beste kan zoeken, begrijpen en vertellen. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Vraag: Van "Korte Zinnen" naar "Een Heel Verhaal"

In de vorige editie (2024) stelden mensen korte vragen. Dit jaar is het veranderd. De vragen zijn nu lange, complexe verhalen.

  • Vroeger: "Wie is de beste atleet?"
  • Nu: "Ik ben geïnteresseerd in de maatschappelijke impact van sport, vooral over salarissen, inclusie, cultuur en het zakelijke aspect. Ik wil ook begrijpen hoe nieuwe uitrusting en training de populariteit van sporten beïnvloeden."

De computers moeten nu niet alleen zoeken, maar ook redeneren. Ze moeten denken als een onderzoeker die een diepgravend artikel schrijft, niet als een robot die alleen trefwoorden matcht.

2. De Opdracht: De Drie Delen van de Taak

Deelnemers bouwen systemen die drie dingen moeten doen, alsof ze een team zijn:

  • De Zoeker (Retrieval): Dit is de "bibliothecaris". Hij duikt de enorme zee van teksten in en haalt de 100 meest relevante stukjes tekst (documenten) eruit. Hij moet precies weten welke stukjes nodig zijn om het verhaal te vertellen.
  • De Schrijver (Generation): Dit is de "auteur". Hij leest de gevonden stukjes en schrijft een antwoord van maximaal 400 woorden. Maar hij mag niet verzinnen! Elke zin moet gebaseerd zijn op wat hij heeft gevonden.
  • De Bewijsleveraar (Citation): Dit is de "fact-checker". Bij elke zin in het antwoord moet de schrijver aangeven: "Dit heb ik gelezen op pagina X van document Y." Als hij geen bron noemt, is het antwoord waardeloos.

3. De Beoordeling: Hoe weten we wie er wint?

De jury (menselijke experts en slimme AI's) kijkt niet alleen naar of het antwoord "klinkt goed". Ze kijken naar drie cruciale dingen:

  • Is het relevant? (De Zoeker)
    Stel, je vraag gaat over sport en geld. Als de computer alleen maar artikelen over "sport en weer" vindt, is dat een mislukking. De jury kijkt of de gevonden stukjes de verschillende onderdelen van je vraag (salarissen, cultuur, etc.) echt beantwoorden.
  • Is het compleet? (De Schrijver)
    Heeft het antwoord alle belangrijke stukjes van de puzzel? Als de vraag gaat over "inclusie" en het antwoord negeert dat onderwerp, dan is het antwoord onvolledig. Het is alsof je een recept maakt maar vergeet de suiker toe te voegen: het is nog steeds een taart, maar niet de goede.
  • Is het waar? (De Bewijsleveraar)
    Dit is het belangrijkste. Als de computer zegt: "Vrouwen krijgen minder salaris dan mannen in de sport," dan moet hij kunnen aantonen dat dit in de gevonden documenten staat. Als hij dat niet kan, is het een leugen (of een hallucinatie). De jury checkt elke zin: "Wordt dit echt ondersteund door de bron?"

4. De Uitdaging: De "Sub-verhalen"

Omdat de vragen zo lang en ingewikkeld zijn, hebben de organisatoren de vragen opgeknipt in kleinere stukjes, noem ze "sub-verhalen".

  • Hoofdvraag: "Wat is de impact van sport?"
  • Sub-verhalen: "Hoeveel verdienen atleten?", "Zijn er genoeg vrouwen in leidinggevende posities?", "Hoe beïnvloedt geld de sport?"

De computers moeten elk van deze sub-verhalen apart beantwoorden en dan samenvoegen tot één groot, logisch verhaal.

5. Het Resultaat: Mens vs. Machine

De wedstrijd toont aan dat AI's steeds beter worden in dit soort taken.

  • Sommige systemen zijn heel goed in het vinden van de juiste documenten (de Zoeker).
  • Andere systemen zijn fantastisch in het schrijven van een vloeiend verhaal (de Schrijver).
  • Maar de echte winnaars zijn de systemen die alles goed doen: ze vinden de juiste bronnen, schrijven een compleet verhaal en leveren voor elke zin het bewijs.

De grote les van 2025:
In de wereld van AI is "slim zijn" niet genoeg. Een systeem moet ook eerlijk en transparant zijn. Het moet niet alleen het juiste antwoord geven, maar ook laten zien waar het dat vandaan heeft. Het is alsof je niet alleen een goed verslag schrijft, maar ook elke bron exact citeert zodat iedereen kan controleren of het waar is.

De TREC 2025 RAG-wedstrijd is dus een race om de meest betrouwbare, slimme en eerlijke "digitale bibliothecaris" te vinden die ons kan helpen navigeren in de overvloed aan informatie van vandaag.