LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Dit paper introduceert LIT-RAGBench, een nieuw benchmark voor het evalueren van de vermogens van grote taalmodellen in Retrieval-Augmented Generation door middel van vijf specifieke categorieën (integratie, redenering, logica, tabellen en afzien) op een dataset van 114 menselijk gemaakte vragen.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt die alles in de wereld weet. Dit is een Grote Taalmodel (LLM). Hij kan prachtige verhalen schrijven en vragen beantwoorden. Maar er is een probleem: hij is soms te zelfverzekerd. Als hij iets niet weet, verzint hij vaak een antwoord dat klinkt alsof het waar is, maar dat helemaal niet klopt. Dit noemen we "hallucineren".

Om dit op te lossen, gebruiken we een techniek genaamd RAG (Retrieval-Augmented Generation). Denk hierbij aan een detective die niet alleen op zijn eigen geheugen vertrouwt, maar eerst een dossier opent met feiten uit een bibliotheek voordat hij een conclusie trekt. De "Retriever" zoekt de documenten, en de "Generator" (onze slimme assistent) leest ze en geeft het antwoord.

Maar hoe weten we of deze detective goed werkt? Bestaande tests waren vaak te simpel. Ze keken alleen of het antwoord klopte, maar niet hoe de detective erbij kwam.

Daarom hebben de auteurs van dit papier LIT-RAGBench bedacht. Het is als een groot, realistisch examen voor deze digitale detectives. In plaats van simpele meerkeuzevragen, krijgen ze complexe situaties voorgeschoteld die ze in het echte leven tegenkomen.

Hier is hoe dit examen werkt, vertaald naar alledaagse metaforen:

De Vijf Proeven van LIT-RAGBench

Het examen bestaat uit vijf categorieën, elk een andere vaardigheid die je van een goede detective eist:

  1. Integratie (Het Puzzen):

    • De situatie: De antwoorden liggen verspreid over drie verschillende documenten. In document A staat de naam van een bedrijf, in B de datum, en in C de prijs.
    • De uitdaging: De assistent moet deze losse stukjes als een puzzel samenvoegen tot één compleet verhaal. Veel modellen raken hier de draad kwijt en vergeten een stukje informatie.
  2. Redeneren (Het Oplossen van Mysteries):

    • De situatie: Er staat niet direct geschreven "Wie won de prijs?", maar wel: "Company X won in 2023" en "Company Y won in 2024". De vraag is: "Wie won in 2023?"
    • De uitdaging: De assistent moet een logische sprong maken (multi-hop reasoning) en niet alleen zoeken naar exacte woorden. Ook moet hij soms rekenen (bijv. "Wat is de totale winst?"), wat voor AI's vaak lastig is.
  3. Logica (Het Vertalen van Taal):

    • De situatie: De vraag is: "Wie is ouder dan 30?" In het document staat: "Leeftijd: 35 jaar".
    • De uitdaging: De assistent moet begrijpen dat 35 ouder is dan 30, zelfs als het woord "30" er niet in staat. Hij moet ook begrijpen dat een "geluiddempende koptelefoon" een type "elektronisch apparaat" is, zelfs als dat niet letterlijk staat.
  4. Tabellen (Het Lezen van Geheime Codes):

    • De situatie: De informatie zit in een ingewikkelde tabel, soms met samengevoegde vakken (zoals een Excel-sheet die door de computer is opgesplitst).
    • De uitdaging: Veel AI's raken hier de weg kwijt. Ze zien een rij en een kolom, maar begrijpen niet welke waarde bij welke kop hoort, vooral als de tabel groot is of raar opgemaakt.
  5. Afwijzen (Het Durven Zeggen: "Ik Weet Het Niet"):

    • De situatie: De detective zoekt in het dossier, maar het dossier bevat gewoonweg geen antwoord op de vraag.
    • De uitdaging: Een goede assistent moet durven zeggen: "Ik kan dit niet beantwoorden op basis van de documenten." Slechte assistenten gaan dan toch maar iets verzinnen (hallucineren). Dit is misschien wel de belangrijkste test voor betrouwbaarheid.

Wat hebben ze ontdekt?

De onderzoekers hebben dit examen gegeven aan de slimste AI's van dit moment (zoals GPT-5, Claude, en open-source modellen).

  • Niemand is perfect: Geen enkel model haalde 90% goed. Zelfs de slimste modellen maken fouten, vooral bij het samenvoegen van informatie of het lezen van ingewikkelde tabellen.
  • Sterke en zwakke punten: Sommige modellen zijn goed in rekenen, maar slecht in het zeggen "ik weet het niet". Anderen zijn heel voorzichtig en zeggen te vaak "ik weet het niet", zelfs als ze het antwoord wel hadden kunnen vinden (dit noemen ze "over-abstention").
  • Taal maakt uit: De tests waren in het Japans en Engels. Sommige modellen deden het in het ene taalgebied veel beter dan in het andere.

Waarom is dit belangrijk?

Stel je voor dat je een AI wilt gebruiken in een ziekenhuis of een advocatenkantoor. Je wilt niet dat de AI iets verzint over een medicijn of een wet.

LIT-RAGBench is als een kwaliteitskeurmerk. Het helpt bedrijven om te zien:

  • Welke AI is het meest betrouwbaar voor mijn specifieke doel?
  • Waar moet ik extra oplettend zijn? (Bijvoorbeeld: "Oh, deze AI is goed in zoeken, maar faalt bij tabellen. Dan moet ik mijn tabellen eerst opschonen voordat ik ze aan de AI geef.")

Kortom: Dit papier zegt dat we stoppen met kijken of een AI "slim" is, en gaan kijken of hij nuchter, grondig en eerlijk is in het gebruik van feiten. En tot nu toe is de perfecte detective nog niet gevonden, maar met deze nieuwe test weten we precies waar we moeten werken om hem te bouwen.