Spilled Energy in Large Language Models

Dit paper introduceert een trainingsvrije methode om hallucinaties in grote taalmodellen te detecteren door het softmax-classificatieproces te interpreteren als een Energy-Based Model en afwijkingen in 'uitgestorte energie' te analyseren.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Lekkende Energie" in de Brein van AI: Een Simpele Uitleg

Stel je voor dat een Large Language Model (LLM), zoals de slimme chatbots die we vandaag gebruiken, een enorme bibliotheek is met miljarden boeken. Als je een vraag stelt, zoekt de AI niet in een database voor het juiste antwoord, maar "droomt" ze een antwoord op door woorden één voor één te voorspellen, net als iemand die een verhaal verzint.

Het probleem? Soms droomt de AI iets dat klinkt als waarheid, maar helemaal niet klopt. Dit noemen we hallucinaties.

De onderzoekers van dit paper hebben een nieuwe manier bedacht om deze hallucinaties te vangen, zonder de AI opnieuw te hoeven trainen. Ze noemen hun methode "Spilled Energy" (uitgelopen energie). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De AI als een Energie-Systeem

Stel je de AI voor als een landschap met heuvels en dalen.

  • Ware feiten liggen in diepe, stabiele dalen (lage energie).
  • Onzin of hallucinaties liggen op onstabiele heuveltoppen of in modderige gaten (hoge energie).

Normaal gesproken kijkt de AI alleen naar hoe "zeker" ze is van het volgende woord (de logits). Maar de onderzoekers zeggen: "Kijk niet alleen naar het woord, kijk naar de energie die nodig is om dat woord te produceren."

2. Het Concept van "Uitgelopen Energie"

Dit is de kern van hun ontdekking. De AI bouwt zinnen op als een kettingreactie.

  • Stap 1: De AI denkt aan een woord (bijv. "Rome").
  • Stap 2: Ze berekent de energie om dat woord te kiezen.
  • Stap 3: Ze berekent de energie om het volgende woord te kiezen, gebaseerd op "Rome".

In een perfecte wereld zou de energie die nodig is om "Rome" te kiezen, exact hetzelfde moeten zijn als de energie die vrijkomt als je terugrekent vanuit het volgende woord. Het is alsof je een emmer water overdraait: de hoeveelheid water die eruit komt, moet precies gelijk zijn aan wat erin zat.

Maar wat gebeurt er bij een fout?
Wanneer de AI hallucineert (bijvoorbeeld zegt dat de hoofdstad van Italië "Sydney" is), ontstaat er een lek in de ketting. De energie die ze berekent op het ene moment, klopt niet meer met de energie op het volgende moment. Er is een verschil, een "uitgelopen" hoeveelheid energie.

  • Geen fout? De emmer is dicht. De energie klopt perfect. (Geen lekkage).
  • Fout? De emmer lekt. Er is een groot verschil in energie. (Veel lekkage).

3. Waarom is dit zo slim?

Vroeger hadden onderzoekers speciale "detective-hulpmiddelen" (probes) nodig die ze eerst moesten trainen op specifieke onderwerpen. Dat was als een sleutel die alleen bij één deur paste. Als je een ander onderwerp had, werkte de sleutel niet meer.

Deze nieuwe methode is trainingsvrij.

  • Het is alsof je geen speciale sleutel nodig hebt, maar gewoon kijkt of de deur trilt als je hem open duwt.
  • Of nog beter: Het is alsof je een gevoelige weegschaal hebt. Als de AI een fout maakt, zakt de weegschaal uit evenwicht. Dat geldt voor wiskundepuzzels, feitelijke vragen, of redeneringen. De "lek" is overal hetzelfde te zien.

4. Een Voorbeeld uit het Dagelijks Leven

Stel je een kok voor die een recept volgt:

  • Correcte route: "Ik voeg 2 eieren toe." -> "Dan roer ik." -> "Dan bak ik." De stappen kloppen logisch. De energie (de inspanning) is consistent.
  • Hallucinerende route: "Ik voeg 2 eieren toe." -> "Dan voeg ik 500 kilo bakpoeder toe." -> "Dan bak ik."
    • Hier is de sprong van "2 eieren" naar "500 kilo bakpoeder" zo groot en onlogisch, dat de "energiebalans" uit elkaar valt. De AI merkt dit intern als een enorme "uitgelopen energie".

Conclusie

De onderzoekers hebben bewezen dat je kunt kijken naar deze interne "energie-lekken" om te zien of een AI liegt of vergist, zonder haar ooit iets nieuws te hoeven leren. Het werkt voor verschillende modellen (zoals LLaMA, Mistral, Gemma) en op verschillende onderwerpen.

Het is een beetje als een liegend detector die niet kijkt naar wat er gezegd wordt, maar naar de spanning in de stem van de AI terwijl ze het zegt. Als de spanning te hoog is (te veel lekkage), weten we: "Hier zit een fout."

Dit maakt het veiliger en betrouwbaarder om AI te gebruiken, want we kunnen nu sneller zien wanneer de machine begint te dromen in plaats van te rekenen.