Lyapunov Probes for Hallucination Detection in Large Foundation Models

Dit artikel introduceert Lyapunov-probes, een methode die hallucinaties in grote taal- en multimodelmodellen detecteert door het probleem te benaderen via stabiliteitstheorie van dynamische systemen, waarbij hallucinaties worden geïdentificeerd als onstabiele gebieden in de representatieruimte.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een grote chatbot) een enorme bibliotheek is, vol met feiten, verhalen en kennis. Maar soms, als je een vraag stelt die net aan de rand van die bibliotheek ligt, begint de AI te verzinnen. Ze zegt dingen die klinken alsof ze waar zijn, maar eigenlijk zijn het pure fantasie. Dit noemen we hallucinaties.

Deze paper, getiteld "Lyapunov Probes", komt met een slimme nieuwe manier om deze hallucinaties op te sporen. In plaats van te kijken wat de AI zegt, kijken ze naar hoe de AI denkt. Ze gebruiken een idee uit de natuurkunde: stabiliteit.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. De AI als een berglandschap

Stel je de kennis van een AI voor als een berglandschap:

  • De valleien (Stabiele gebieden): Dit zijn plekken waar de AI zeker weet wat het antwoord is. Als je hier een steen rolt (een kleine verandering in de vraag), rolt hij gewoon weer terug naar dezelfde plek. De AI blijft rustig en geeft het juiste antwoord.
  • De randen van de afgrond (Instabiele gebieden): Dit is waar de hallucinaties gebeuren. Het is de grens tussen wat de AI weet en wat ze niet weet. Als je hier een klein steentje rolt, valt hij de afgrond in. De AI begint te verzinnen omdat ze niet zeker is.

De auteurs zeggen: "Hallucinaties gebeuren niet willekeurig. Ze gebeuren precies op die onstabiele randen."

2. De "Lyapunov-Probe": Een trillingsmeter

Hoe kun je zien of de AI op een stabiel terrein staat of op de rand van een afgrond? De auteurs bouwen een klein hulpmiddel, een Lyapunov-Probe.

Je kunt dit zien als een trillingsmeter of een stabiliteits-test:

  • Je geeft de AI een vraag.
  • De probe "schudt" de vraag een beetje (net als een lichte trilling).
  • Bij een stabiel antwoord: De AI blijft kalm. Het antwoord verandert niet of nauwelijks. De probe zegt: "Alles goed, dit is een feit."
  • Bij een hallucinatie: De AI begint te wiebelen. Een klein beetje schudden zorgt voor een heel groot, gek antwoord. De probe ziet deze onrust en zegt: "Pas op! Dit is onstabiel, de AI is aan het verzinnen."

3. Hoe werkt het precies? (De "Twee-Fasen" Training)

Deze probe is niet zomaar een detector; hij is getraind met een specifieke regel, gebaseerd op een wiskundig principe (de Lyapunov-stabiliteit).

  • Fase 1: Leren wat waar is. Eerst leert de probe gewoon welke antwoorden waar zijn en welke niet.
  • Fase 2: Leren op de trilling. Daarna leren ze de probe een belangrijke regel: "Als ik de vraag een beetje verander, moet je vertrouwen in het antwoord altijd iets zakken."
    • Als de AI zeker is, zakt het vertrouwen heel langzaam.
    • Als de AI aan het verzinnen is, zakt het vertrouwen heel snel en hard.

Dit zorgt ervoor dat de probe heel goed kan zien of de AI op een "stabiele grond" staat of op "losse grond".

4. Waarom is dit beter dan andere methoden?

Tot nu toe keken andere methoden vaak alleen naar de woorden die de AI produceerde (zoals: "Zegt de AI 'misschien' of 'ik weet het niet'?"). Maar soms zegt een AI heel zelfverzekerd "Ik weet het zeker!" terwijl ze het helemaal niet weet.

Deze nieuwe methode kijkt naar de interne trillingen van de AI. Het is alsof je niet luistert naar wat iemand zegt, maar voelt of zijn stem trilt van onzekerheid.

5. De resultaten in het kort

De auteurs hebben dit getest op verschillende grote AI-modellen (zowel voor tekst als voor beelden).

  • Het werkt beter dan de oude methoden.
  • Het werkt zelfs als je het probeert op vragen waar het niet voor getraind is (bijvoorbeeld: getraind op geschiedenisvragen, maar dan testen op natuurkunde).
  • Het helpt de AI om te zeggen: "Ik weet het niet zeker" in plaats van om een leugen te vertellen.

Samenvatting in één zin

Deze paper bedacht een slimme "stabiliteits-test" die kijkt of de gedachten van een AI rustig en zeker zijn, of onrustig en aan het verzinnen, zodat we hallucinaties kunnen opsporen voordat ze gebeuren.

Het is een beetje zoals het hebben van een waarschuwingslampje dat aangaat zodra de AI begint te wankelen op de rand van haar kennis, zodat we niet in de valkuil van de hallucinatie stappen.