Spilled Energy in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

De "Lekkende Energie" in de Brein van AI: Een Simpele Uitleg

Stel je voor dat een Large Language Model (LLM), zoals de slimme chatbots die we vandaag gebruiken, een enorme bibliotheek is met miljarden boeken. Als je een vraag stelt, zoekt de AI niet in een database voor het juiste antwoord, maar "droomt" ze een antwoord op door woorden één voor één te voorspellen, net als iemand die een verhaal verzint.

Het probleem? Soms droomt de AI iets dat klinkt als waarheid, maar helemaal niet klopt. Dit noemen we hallucinaties.

De onderzoekers van dit paper hebben een nieuwe manier bedacht om deze hallucinaties te vangen, zonder de AI opnieuw te hoeven trainen. Ze noemen hun methode "Spilled Energy" (uitgelopen energie). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De AI als een Energie-Systeem

Stel je de AI voor als een landschap met heuvels en dalen.

Ware feiten liggen in diepe, stabiele dalen (lage energie).
Onzin of hallucinaties liggen op onstabiele heuveltoppen of in modderige gaten (hoge energie).

Normaal gesproken kijkt de AI alleen naar hoe "zeker" ze is van het volgende woord (de logits). Maar de onderzoekers zeggen: "Kijk niet alleen naar het woord, kijk naar de energie die nodig is om dat woord te produceren."

2. Het Concept van "Uitgelopen Energie"

Dit is de kern van hun ontdekking. De AI bouwt zinnen op als een kettingreactie.

Stap 1: De AI denkt aan een woord (bijv. "Rome").
Stap 2: Ze berekent de energie om dat woord te kiezen.
Stap 3: Ze berekent de energie om het volgende woord te kiezen, gebaseerd op "Rome".

In een perfecte wereld zou de energie die nodig is om "Rome" te kiezen, exact hetzelfde moeten zijn als de energie die vrijkomt als je terugrekent vanuit het volgende woord. Het is alsof je een emmer water overdraait: de hoeveelheid water die eruit komt, moet precies gelijk zijn aan wat erin zat.

Maar wat gebeurt er bij een fout?
Wanneer de AI hallucineert (bijvoorbeeld zegt dat de hoofdstad van Italië "Sydney" is), ontstaat er een lek in de ketting. De energie die ze berekent op het ene moment, klopt niet meer met de energie op het volgende moment. Er is een verschil, een "uitgelopen" hoeveelheid energie.

Geen fout? De emmer is dicht. De energie klopt perfect. (Geen lekkage).
Fout? De emmer lekt. Er is een groot verschil in energie. (Veel lekkage).

3. Waarom is dit zo slim?

Vroeger hadden onderzoekers speciale "detective-hulpmiddelen" (probes) nodig die ze eerst moesten trainen op specifieke onderwerpen. Dat was als een sleutel die alleen bij één deur paste. Als je een ander onderwerp had, werkte de sleutel niet meer.

Deze nieuwe methode is trainingsvrij.

Het is alsof je geen speciale sleutel nodig hebt, maar gewoon kijkt of de deur trilt als je hem open duwt.
Of nog beter: Het is alsof je een gevoelige weegschaal hebt. Als de AI een fout maakt, zakt de weegschaal uit evenwicht. Dat geldt voor wiskundepuzzels, feitelijke vragen, of redeneringen. De "lek" is overal hetzelfde te zien.

4. Een Voorbeeld uit het Dagelijks Leven

Stel je een kok voor die een recept volgt:

Correcte route: "Ik voeg 2 eieren toe." -> "Dan roer ik." -> "Dan bak ik." De stappen kloppen logisch. De energie (de inspanning) is consistent.
Hallucinerende route: "Ik voeg 2 eieren toe." -> "Dan voeg ik 500 kilo bakpoeder toe." -> "Dan bak ik."
- Hier is de sprong van "2 eieren" naar "500 kilo bakpoeder" zo groot en onlogisch, dat de "energiebalans" uit elkaar valt. De AI merkt dit intern als een enorme "uitgelopen energie".

Conclusie

De onderzoekers hebben bewezen dat je kunt kijken naar deze interne "energie-lekken" om te zien of een AI liegt of vergist, zonder haar ooit iets nieuws te hoeven leren. Het werkt voor verschillende modellen (zoals LLaMA, Mistral, Gemma) en op verschillende onderwerpen.

Het is een beetje als een liegend detector die niet kijkt naar wat er gezegd wordt, maar naar de spanning in de stem van de AI terwijl ze het zegt. Als de spanning te hoog is (te veel lekkage), weten we: "Hier zit een fout."

Dit maakt het veiliger en betrouwbaarder om AI te gebruiken, want we kunnen nu sneller zien wanneer de machine begint te dromen in plaats van te rekenen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Spilled Energy in Large Language Models

Auteurs: Adrian R. Minut, Hazem Dewidar, Iacopo Masi (Sapienza University of Rome, OmnAI Lab, GLADIA)

1. Het Probleem: Hallucinaties in LLM's

Grootte Taalmodellen (LLM's) zijn breed ingezet, maar lijden onder een kritieke beperking: de neiging om onjuiste of misleidende informatie te genereren, bekend als "hallucinaties". Bestaande methoden om hallucinaties te detecteren hebben vaak de volgende nadelen:

Afhankelijkheid van getrainde classifiers: Methoden zoals die van Orgad et al. (2025) vereisen het trainen van specifieke "probe classifiers" op de interne activaties van het model. Deze classifiers generaliseren vaak slecht over verschillende taken en datasets.
Geen generalisatie: Omdat LLM's foundation models zijn die in de "wild" worden gebruikt, is het moeilijk om te voorspellen welke classifier het beste werkt voor een specifieke real-world situatie.
Training overhead: Veel bestaande oplossingen vereisen extra training of fine-tuning, wat resource-intensief is.

Het paper stelt dat hallucinaties fundamenteel verbonden zijn aan de wiskundige structuur van het generatieproces, en niet alleen een kwestie zijn van ontbrekende kennis.

2. Methodologie: Energie-Based Models (EBM) en "Spilled Energy"

De kern van de methode is een herinterpretatie van de finale softmax-classifier van een LLM als een Energy-Based Model (EBM).

Theoretische Basis

EBM Herinterpretatie: De auteurs interpreteren de logit-waarden van het model als energie-niveaus. In een EBM correspondeert een lagere energie met een hogere waarschijnlijkheid.
De Kettingregel van Kansen: Een autoregressief LLM berekent de gezamenlijke waarschijnlijkheid van een sequentie $p(x_{1:N})$ door de productregel toe te passen:
$p(x_{1:N}) = \prod_{i} p(x_i | x_{1:i-1})$
Wiskundig gezien zou de marginaal waarschijnlijkheid van een sequentie op tijdstip $i$ ( $p(x_{1:i})$ ) exact gelijk moeten zijn aan de som van de log-likelihoods tot dat punt. In een perfect geoptimaliseerd model zouden bepaalde energie-termen die op opeenvolgende tijdstappen worden gemeten, identiek moeten zijn.

De "Spilled Energy" ( $\Delta E$ )

De auteurs introduceren het concept van "Spilled Energy" (uitgelopen energie). Dit is de discrepantie tussen twee energie-waarden die wiskundig gezien gelijk zouden moeten zijn, maar in de praktijk van LLM-implementaties verschillend zijn:

Logit-energie ( $E^\ell_\theta$ ): De energie van het specifieke token dat op tijdstip $i$ wordt gegenereerd (de logit van het gekozen token).
Marginaal-energie ( $E^m_\theta$ ): De energie die wordt berekend door te marginaliseren over het volledige vocabulaire op tijdstip $i-1$ (de log-sum-exp term in de softmax).

Volgens de kettingregel zou de energie van het token op stap $i$ (gemeten als logit) gelijk moeten zijn aan de marginaal-energie van de sequentie tot stap $i$ (gemeten als de noemer van de softmax op stap $i-1$ ). De "spilled energy" is het verschil tussen deze twee:
$\Delta E_\theta(x_{1:i}) = -\log \sum_k \exp(\theta(x_{1:i})[k]) + \theta(x_{1:i-1})[id(x_i)]$

Hypothese: Als het model correct genereert, zou deze waarde dicht bij nul moeten liggen. Als het model hallucineert (een fout maakt), breekt de wiskundige consistentie, wat resulteert in een significante "spillage" (afwijking) in de energie.

Implementatie

Trainingsvrij: De methode vereist geen extra training. Het leest direct de logit-waarden en de softmax-noemers uit het model tijdens de inferentie.
Focus op "Exact Answer Tokens": Net als bij eerdere werken, focussen de auteurs zich op de tokens die het daadwerkelijke antwoord vormen (bijv. "Rome" in plaats van de hele zin).
Pooling: Voor antwoorden die uit meerdere tokens bestaan, gebruiken ze een pooling-strategie (zoals min-pooling) om een enkele score voor het antwoord te krijgen.

3. Belangrijkste Bijdragen

Een trainingsvrije, generaliserende detector: Een methode voor het detecteren van hallucinaties die geen extra classifiers vereist en uitstekend generaliseert over verschillende taken en LLM-architecturen.
Twee nieuwe energie-metrics:
- Spilled Energy ( $\Delta E$ ): Meet de inconsistentie tussen tijdstappen.
- Marginal Energy ( $E^m$ ): Een maatstaf die op één tijdstap kan worden gemeten.
Wiskundig onderbouwde aanpak: In plaats van te vertrouwen op empirische observaties van activaties, baseert de methode zich op de fundamentele wiskunde van EBMs en de kettingregel van waarschijnlijkheid.
Scalabiliteit: De methode werkt effectief op state-of-the-art modellen (LLaMA 3, Mistral, Gemma, Qwen) zonder extra rekentijd voor training.

4. Resultaten

De auteurs hebben hun methode getest op negen benchmarks (waaronder Math, TriviaQA, HotpotQA, Winogrande, IMDB) en synthetische rekenopdrachten.

Synthetische Wiskunde: Op een dataset met meerstaps rekenproblemen (met opzettelijke fouten in het antwoord) scheidde de "Spilled Energy" correcte van onjuiste antwoorden met hoge betrouwbaarheid. Het presteerde aanzienlijk beter dan standaard logit-confidence, vooral bij subtiele fouten (kleine numerieke afwijkingen).
Real-world Benchmarks:
- De methode overtrof consistent de logit-confidence baselines.
- Vergelijking met Orgad et al. (2025): Waar getrainde probe classifiers sterk presteerden binnen hun trainingsdataset maar instortten bij cross-dataset evaluatie (out-of-distribution), behaalde "Spilled Energy" robuuste prestaties zonder training. De generalisatie was duidelijk zichtbaar in cross-dataset testen.
- Prestaties: Op LLaMA-3-Instruct behaalde de methode een gemiddelde AuROC van 73.16%, vergeleken met 64.16% voor de getrainde probe classifiers van Orgad et al.
Invloed van Instruction Tuning: De methode profiteerde zelfs van instruction tuning, terwijl traditionele logit-metrics vaak oververzekerd (overconfident) werden na fine-tuning.
Modelonafhankelijkheid: De resultaten waren consistent over verschillende modelgroottes (1B tot 8B) en families (LLaMA, Mistral, Gemma, Qwen).

5. Significantie en Conclusie

Dit paper biedt een fundamenteel nieuw perspectief op het detecteren van fouten in LLM's. In plaats van te proberen het model te "lezen" met externe classifiers, leest het de interne wiskundige inconsistenties die inherent zijn aan het generatieproces zelf.

Praktische Toepassing: Omdat de methode trainingsvrij is, kan deze direct worden toegepast op elke bestaande LLM zonder aanpassingen, wat het ideaal maakt voor productieomgevingen waar hallucinaties kritiek kunnen zijn.
Theoretische Inzichten: Het paper suggereert dat hallucinaties niet alleen een gebrek aan kennis zijn, maar een symptoom van een breuk in de probabilistische consistentie van het autoregressieve proces.
Toekomst: De auteurs tonen aan dat het "energielandschap" van een LLM een krachtige, onderbelichte bron is voor betrouwbaarheidsmeting.

Kortom, "Spilled Energy" biedt een elegante, wiskundig onderbouwde en praktische oplossing voor het detecteren van hallucinaties die de beperkingen van eerdere, trainingsafhankelijke methoden overwint.

Spilled Energy in Large Language Models

1. De AI als een Energie-Systeem

2. Het Concept van "Uitgelopen Energie"

3. Waarom is dit zo slim?

4. Een Voorbeeld uit het Dagelijks Leven

Conclusie

Titel: Spilled Energy in Large Language Models

1. Het Probleem: Hallucinaties in LLM's

2. Methodologie: Energie-Based Models (EBM) en "Spilled Energy"

Theoretische Basis

De "Spilled Energy" (ΔE\Delta EΔE)

Implementatie

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie en Conclusie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis

De "Spilled Energy" ( $\Delta E$ )