Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

Deze paper presenteert een volledig open-source reproductie van het Corrective Retrieval Augmented Generation (CRAG)-systeem met Wikipedia en Phi-3-mini, die vergelijkbare prestaties behaalt en voor het eerst inzicht biedt in de werking van de evaluatiecomponent via SHAP-analyse.

Surya Vardhan Yalavarthi

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige assistent hebt die alles over de wereld weet. Deze assistent is een Groot Taalmodel (zoals een super-intelligente robot). Hij kan prachtige verhalen schrijven en vragen beantwoorden, maar hij heeft een groot probleem: hij hallucineert. Dat betekent dat hij dingen met vol vertrouwen verzint die helemaal niet waar zijn.

Om dit op te lossen, hebben wetenschappers een systeem bedacht genaamd CRAG (Corrective Retrieval Augmented Generation). Het werkt als een check-in-crew voor je assistent.

Hier is wat dit paper doet, vertaald naar alledaags taal:

1. Het Probleem: De "Betaalde" Versie

De originele CRAG-versie was als een dure, gesloten club. Om het te laten werken, hadden ze twee dingen nodig die niet voor iedereen beschikbaar waren:

  • Een betaalde Google-zoekmachine (om snel antwoorden op het internet te vinden).
  • Een geheime, betaalde robot (LLaMA-2) die de antwoorden schreef.

Omdat deze dingen geld kosten of geheim zijn, kon niemand het systeem namaken of verbeteren. Het was alsof je een recept voor een heerlijke taart had, maar de ingrediënten mochten alleen bij één specifieke winkel worden gekocht.

2. De Oplossing: De "Open Deur" Versie

De auteur van dit paper, Surya, heeft gezegd: "Laten we dit openbaar maken!" Hij heeft een volledig gratis en open versie gebouwd.

  • In plaats van de dure Google-zoekmachine, gebruikt hij de Wikipedia-API (een gratis bibliotheek van kennis).
  • In plaats van de geheime robot, gebruikt hij Phi-3, een klein maar krachtig model dat gratis beschikbaar is.

Het resultaat? Zijn gratis versie werkt bijna net zo goed als de dure originele versie. Het is alsof je een taart bakt met ingrediënten uit de supermarkt in plaats van de dure speciaalzaak, en hij smaakt precies hetzelfde.

3. Hoe werkt het? (De Drie Acties)

Stel je voor dat je assistent een vraag krijgt. De "check-in-crew" (de evaluator) kijkt naar de documenten die hij heeft gevonden en beslist wat er moet gebeuren. Er zijn drie scenario's:

  1. Correct (Goed): De gevonden documenten zijn perfect. De assistent gebruikt ze direct om het antwoord te geven.
  2. Incorrect (Slecht): De documenten zijn completely onzin. De crew gooit ze weg en zegt: "Ga snel naar de bibliotheek (Wikipedia) om betere informatie te zoeken!"
  3. Ambigu (Twijfelachtig): De documenten zijn niet slecht, maar ook niet perfect. De crew zegt: "Gebruik wat we hebben, maar zoek ook even snel op Wikipedia om het af te maken."

4. De Grote Ontdekking: De "Naam-Check"

Dit is het meest interessante deel van het paper. De auteurs hebben gekeken hoe de "check-in-crew" eigenlijk denkt. Ze gebruikten een hulpmiddel genaamd SHAP (een soort röntgenfoto voor AI-beslissingen).

Wat ontdekten ze?
De crew is niet echt slim in het begrijpen van betekenis. In plaats daarvan is het een naam-detecteur.

  • Als de vraag is: "Wat is de beroep van Henry Feilden?" en het document bevat het woord "Henry", denkt de crew: "Ah, de namen matchen! Dit is goed!"
  • Als het document over "mieren" gaat (en Henry niet noemt), denkt de crew: "Geen naam? Dan is dit onzin!"

Het probleem hiermee:
Stel je vraagt: "Wie regisseerde de film Titanic?"
De crew kijkt naar het woord "Titanic". Omdat de AI in zijn training vooral over mensen en beroepen heeft gelezen (niet over films), ziet hij "Titanic" niet als een bekende naam. Hij denkt: "Ik ken deze naam niet, dit is onzin," en gooit het document weg.
Dit werkt goed voor vragen over mensen, maar faalt volledig voor vragen over films, muziek of wetenschap.

5. Wat betekent dit voor de toekomst?

De paper laat zien dat we:

  1. Geen dure tools meer nodig hebben om slimme AI-systemen te bouwen; gratis alternieven werken prima.
  2. Onze AI-systemen beter moeten begrijpen. De huidige "check-in-crew" is te simpel. Hij kijkt alleen naar namen, niet naar de echte betekenis. Als we AI willen gebruiken voor wetenschap of films, moeten we hem leren om meer te kijken dan alleen de naam van een persoon.

Kort samengevat:
De auteur heeft een dure, gesloten machine omgebouwd tot een gratis, open machine die net zo goed werkt. Maar hij heeft ook ontdekt dat de "controleur" in de machine eigenlijk een beetje dom is: hij kijkt alleen of namen overeenkomen, en niet of de inhoud klopt. Voor de toekomst moeten we die controleur slimmer maken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →