Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat een Large Language Model (LLM), zoals de slimme chatbots die we vandaag gebruiken, een ontzettend goed getrainde schrijver is. Deze schrijver heeft miljoenen boeken gelezen en kan prachtig, vloeiend en overtuigend tekst produceren. Maar er is een groot probleem: deze schrijver weet niet wat waarheid is. Hij weet alleen wat woorden vaak samen voorkomen.
Dit artikel, geschreven door Javier Marín, probeert een oplossing te vinden voor het fenomeen "hallucineren" (wanneer een AI dingen verzonnen die niet waar zijn). De auteur stelt dat we "hallucineren" niet als één groot probleem moeten zien, maar als drie verschillende soorten fouten die elk hun eigen geometrische vingerafdruk hebben in de digitale ruimte waar de AI denkt.
Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:
1. De Drie Soorten "Leugens" (De Taxonomie)
De auteur verdeelt hallucinaties in drie types, elk met een eigen patroon:
Type I: De Luie Schrijver (Ontrouwheid)
- Wat gebeurt er? De AI krijgt een tekstje (bijvoorbeeld een nieuwsartikel) en moet daar een antwoord op geven. Maar in plaats van naar dat tekstje te kijken, kijkt de AI naar zijn eigen geheugen en verzonnt hij iets dat klinkt alsof het waar is, maar negeert de feiten in het artikel.
- De Analogie: Stel je voor dat je een vriend vraagt: "Wat staat er in dit specifieke recept?" en je vriend antwoordt: "Ik weet het niet, maar ik denk dat je er chocolade in moet doen." Hij negeert je vraag en gebruikt zijn eigen ideeën.
- De Oplossing (SGI): De auteurs hebben een meetlat bedacht (de Semantic Grounding Index). Als het antwoord dichter bij het originele tekstje staat dan bij de vraag zelf, is het goed. Als het antwoord juist dichter bij de vraag staat (en ver weg van het tekstje), is de AI "lui" en heeft hij geïgnoreerd wat je gaf.
Type II: De Verzonnen Wereld (Confabulatie)
- Wat gebeurt er? De AI verzonnt volledig nieuwe dingen die niet bestaan: een uitvinding die nooit is gedaan, een bedrijf dat er niet is, of een wetenschap die niet klopt.
- De Analogie: Je vraagt: "Wie heeft de koffie uitgevonden?" en de AI zegt: "De koffie is uitgevonden door een robot genaamd 'Caffie' in het jaar 2099." Dit is een volledig nieuw concept dat niet in de echte wereld past.
- De Oplossing (Γ - Gamma): Dit is de coolste vondst van het artikel. De auteurs kijken naar de richting waarin de AI beweegt in de digitale ruimte. Als de AI een goed antwoord geeft, beweegt hij in een bepaalde, voorspelbare richting (als een kompas). Als hij iets verzonnen, onbestaand ding bedenkt, beweegt hij in een vreemde, afwijkende richting. Hun meetlat (de Directional Grounding Index) kan deze "afwijkende richting" bijna perfect opsporen (95% nauwkeurigheid).
Type III: De Foutieve Details (Factuele Fouten)
- Wat gebeurt er? De AI heeft het juiste concept, maar de details kloppen niet. Bijvoorbeeld: "De Eiffeltoren staat in Parijs en is gebouwd in 1890." (Het klopt dat hij in Parijs staat, maar hij is in 1889 gebouwd).
- De Analogie: Je vraagt naar een bekende film, en de AI zegt de juiste titel en de juiste hoofdrolspeler, maar verandert de kleur van de jas van de acteur. Het verhaal klopt, maar het detail is fout.
- Het Probleem: Dit is het lastigste type. Omdat het antwoord klinkt alsof het waar is en in hetzelfde "gebied" van de digitale ruimte zit als het juiste antwoord, kan de meetlat dit niet zien. Het is alsof je probeert een valse munt te vinden die er precies hetzelfde uitziet als een echte munt, maar dan in een digitale wereld. De auteurs concluderen: dit type fout is voor hun methode onzichtbaar.
2. Waarom is dit belangrijk? (De "Waarheid" van de Meetlat)
Veel andere methoden om hallucinaties te detecteren kijken naar de tekst zelf (bijvoorbeeld: "Klinkt dit logisch?"). Maar AI's zijn zo goed in logisch klinkende onzin dat die methoden vaak falen.
De auteurs gebruiken een slimme wiskundige truc: ze kijken niet naar de woorden, maar naar de afstand en richting in de ruimte waar de AI denkt.
- Als de AI een verzonnen ding bedenkt (Type II), "valt" het antwoord uit de rij.
- Als de AI een bestaand feit verdraait (Type III), blijft het in de rij staan, en dat is waarom het zo lastig is om te detecteren.
3. De Valstrik van de "Stijl" (TruthfulQA)
Het artikel onderzoekt ook een bekende testset (TruthfulQA) waar AI's vaak op worden getest. Veel andere systemen denken dat ze dit goed kunnen detecteren. Maar de auteurs tonen aan dat dit een valstrik is.
- De ontdekking: De AI's die "goed" scoorden op deze test, detecteerden eigenlijk niet of het antwoord waar was. Ze detecteerden alleen de schrijfstijl.
- De Analogie: Stel je voor dat alle "ware" antwoorden in de test lang en voorzichtig geschreven zijn ("Misschien is het..."), terwijl alle "valse" antwoorden kort en zeker klinken ("Het is..."). Een slimme computer leert dan: "Korte zinnen = leugen". Maar dat heeft niets te maken met de feitelijke waarheid, alleen met de manier waarop de mensen de test hebben opgesteld. De auteurs bewijzen dat hun meetlat dit soort "stijl-fouten" niet ziet, wat eigenlijk een goed teken is: het betekent dat ze echt naar de feiten kijken en niet naar de vorm.
Conclusie: Wat leert dit ons?
Dit artikel zegt eigenlijk: "We moeten stoppen met denken dat 'hallucineren' één probleem is."
- Als de AI je bronnen negeert, kunnen we dat meten.
- Als de AI iets verzonnen bedenkt, kunnen we dat meten door te kijken naar de "richting" van zijn gedachtegang.
- Maar als de AI een klein detail fout heeft binnen een waar verhaal, is dat met deze meetlat onmogelijk te zien. Dat is geen gebrek aan technologie, maar een fundamentele beperking van hoe AI's werken: ze begrijpen wat woorden vaak samen doen, maar ze weten niet wat waar is.
De auteurs geven ons dus een nieuwe kaart om te navigeren in de wereld van AI-fouten. We weten nu precies waar onze meetlat werkt en waar we moeten oppassen dat we niet bedrogen worden door een slimme, maar onbetrouwbare schrijver.