Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Deze paper introduceert een compacte methode voor onzekerheidsschatting in grote taalmodellen die, door interne laag-interacties te analyseren, robuustere en overdraagbare resultaten biedt dan bestaande benaderingen op basis van output of probering.

Zvi N. Badash, Yonatan Belinkov, Moti Freiman

Gepubliceerd 2026-03-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms zelfverzekerd foutieve robot hebt die alles kan beantwoorden. Soms geeft deze robot een antwoord dat klinkt als een feitelijke waarheid, terwijl het volledig onzin is. Dit noemen we "hallucinaties". Het probleem is dat de robot er vaak 100% zeker van is, zelfs als hij het mis heeft.

Deze paper introduceert een nieuwe manier om te achterhalen of de robot het wel of niet goed heeft, zonder dat we de robot hoeven te veranderen of hem langere tijd hoeven na te laten denken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zelfverzekerde Leugenaar"

Normaal gesproken kijken we naar het antwoord van de robot om te zien of hij twijfelt. Als hij zegt: "Ik denk dat het X is," weten we dat hij twijfelt. Maar als hij zegt: "Het is absoluut X!" (terwijl het Y is), dan hebben we een probleem. De robot is dan "zeker van zijn fout".

Bestaande methoden om dit te detecteren zijn ofwel te simpel (ze kijken alleen naar de woorden die uit de mond komen) of te complex (ze moeten de robot van binnenuit "openbreken" en duizenden details analyseren, wat veel rekenkracht kost).

2. De Oplossing: De "Interne Stembus"

De auteurs van dit paper hebben een slimme truc bedacht. Ze kijken niet naar het eindantwoord, en ze kijken ook niet naar elke losse gedachte die de robot heeft. In plaats daarvan kijken ze naar hoe de verschillende lagen van het brein van de robot met elkaar overeenkomen.

Stel je het brein van de robot voor als een groot kantoorgebouw met 32 verdiepingen.

  • Op elke verdieping wordt het verhaal van de vraag een beetje anders verteld.
  • Soms zeggen de mensen op verdieping 1 en verdieping 32 precies hetzelfde.
  • Soms zeggen ze iets heel anders, alsof ze ruzie hebben.

De nieuwe methode meet de "ruis" of de "overeenstemming" tussen al deze verdiepingen.

  • Als de robot het goed heeft: Dan zijn de mensen op alle verdiepingen het over het algemeen eens. Het gebouw is rustig en harmonieus.
  • Als de robot het fout heeft: Dan is er chaos. De mensen op de lagere verdiepingen zeggen iets anders dan de mensen op de hogere verdiepingen. Er is een soort "ruis" of "dissonantie" in het gebouw.

3. Hoe het werkt (De "Signature Map")

In plaats van te proberen te begrijpen wat elke verdieping precies zegt (wat heel moeilijk is), maken ze een kaartje van de relaties tussen de verdiepingen.

  • Ze kijken naar elke paar verdiepingen (bijv. verdieping 1 vs. verdieping 5) en meten hoe verschillend hun "stem" is.
  • Dit resulteert in een klein, compact plaatje (een matrix) dat laat zien hoe goed de verdiepingen met elkaar "in gesprek" zijn.
  • Een klein, slim computerprogramma (een "trainer") kijkt naar dit plaatje en zegt: "Ah, dit plaatje ziet eruit als een fout antwoord" of "Dit ziet eruit als een correct antwoord".

4. Waarom is dit zo goed?

De paper toont aan dat deze methode drie grote voordelen heeft:

  1. Het is snel en lichtgewicht: Ze hoeven de robot niet opnieuw te trainen en ze hoeven niet meerdere keren door het gebouw te lopen. Ze doen het in één keer ("one forward pass"). Het is alsof je in één oogopslag ziet of er ruzie is in het kantoor, zonder elke kamer binnen te gaan.
  2. Het werkt ook als je de robot verplaatst: Als je de trainer leert op het ene onderwerp (bijv. geschiedenis) en hem dan test op een ander onderwerp (bijv. wiskunde), werkt deze methode nog steeds goed. De oude methoden (die kijken naar losse details) raken dan vaak de weg kwijt. Onze methode kijkt naar de structuur van het gesprek, en die structuur blijft hetzelfde, ongeacht het onderwerp.
  3. Het werkt zelfs als de robot "verkleind" is: Als je de robot op een langzamere computer zet (waarbij de "geheugencapaciteit" wordt ingekrompen, een techniek genaamd "quantization"), blijft deze methode werken. De oude methoden vallen dan vaak uit elkaar, maar onze "overeenstemmingskaart" blijft stabiel.

Samenvatting in één zin

In plaats van te luisteren naar wat de robot zegt, kijken we naar hoe goed de verschillende delen van zijn brein met elkaar overeenkomen; als ze het oneens zijn, weten we dat de robot waarschijnlijk aan het hallucineren is, en dat kunnen we heel snel en betrouwbaar detecteren.

Het is een slimme manier om de "intuïtie" van de robot te meten door te kijken naar de harmonie in zijn eigen interne kantoorgebouw.