HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Deze studie introduceert HALP, een methode die hallucinaties in vision-language modellen succesvol detecteert vóór de tekstgeneratie door interne representaties te analyseren, waardoor kostbare en onrechtstijdige ingrepen na het genereren van tokens kunnen worden vermeden.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun, Jiawei Zhou

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

HALP: De "Waarschuwingslamp" voor AI die hallucineert

Stel je voor dat je een zeer slimme, maar soms dromerige assistent hebt. Je geeft hem een foto en vraagt: "Wat zie je hier?" Hij antwoordt direct en met veel zelfvertrouwen. Maar soms, terwijl hij nog aan het kijken is naar de foto, begint hij al te fantaseren. Hij ziet een hond die er niet is, of beweert dat de lucht paars is terwijl hij blauw is. Dit noemen we in de AI-wereld hallucineren.

Tot nu toe was het moeilijk om dit te stoppen. Je moest wachten tot de assistent zijn hele verhaal had opgeschreven, en dan pas kon je zeggen: "Hé, dat klopt niet!" Maar dat is te laat en kost veel tijd.

De onderzoekers van dit paper (HALP) hebben een slimme oplossing bedacht: een waarschuwingssysteem dat werkt voordat de assistent ook maar één woord heeft gezegd.

Hoe werkt het? (De Creatieve Analogie)

Stel je de AI voor als een chef-kok in een keuken.

  1. De Ingrediënten (Het plaatje): De chef krijgt een foto van een gerecht.
  2. Het Koken (De AI): De chef begint te denken en te plannen wat hij gaat zeggen.
  3. Het Serveren (De tekst): Uiteindelijk schrijft hij het recept op.

De oude manier: Je wachtte tot de chef het bord met eten had geserveerd. Dan keek je: "Oh nee, er ligt een vlieg op!" Je moest het bord dan weer weghalen. Dat is duur en rommelig.

De HALP-methode: De onderzoekers hebben een kook-assistent (een klein, slim computerprogramma) naast de chef gezet. Deze assistent kijkt niet naar het eindresultaat, maar naar de gedachten van de chef terwijl hij nog aan het plannen is.

Deze kook-assistent kijkt naar drie dingen:

  1. Alleen de foto: Kijkt de chef goed naar de ingrediënten? (Ziet hij de groenten wel?)
  2. De eerste gedachten: Hoe verwerkt de chef de foto in zijn hoofd?
  3. De definitieve plan: Wat is het laatste idee dat de chef heeft, net voordat hij gaat schrijven?

De assistent zegt dan: "Chef, ik zie dat je net gaat beginnen met het verhaal over de 'paarse lucht'. Je gedachten lijken hier een beetje onzeker over. Misschien moet je dat niet zeggen?"

Wat hebben ze ontdekt?

De onderzoekers hebben dit getest met 8 verschillende moderne AI-modellen (zoals Llama, Gemma en Qwen). Ze ontdekten drie belangrijke dingen:

  1. Je kunt het zien voordat het gebeurt: De AI heeft al "weten" dat ze gaan liegen, nog voordat ze de eerste letter hebben geschreven. Het zit verstopt in hun interne gedachten.
  2. Elke chef is anders: Bij sommige AI's moet je kijken naar de eerste gedachten (de pure foto-interpretatie). Bij andere AI's moet je kijken naar het laatste plan (net voor het schrijven). Het hangt af van hoe de AI is gebouwd.
  3. Het werkt heel goed: In veel gevallen kon dit systeem voorspellen of de AI zou hallucineren met een nauwkeurigheid van wel 93%! Dat is bijna net zo goed als een mens die het na het lezen van het antwoord zou kunnen zeggen.

Waarom is dit geweldig?

Stel je voor dat je deze AI gebruikt in een ziekenhuis of voor zelfrijdende auto's.

  • Oude manier: De auto zegt: "Ik zie een konijn op de weg!" (Terwijl er geen konijn is). De auto remt hard. Pas daarna zie je dat het een fout was.
  • Nieuwe HALP-methode: De AI denkt: "Ik zie iets dat op een konijn lijkt, maar ik ben niet zeker." De HALP-assistent ziet deze twijfel in de gedachten, zegt: "Stop! Ga niet remmen, er is geen konijn." De auto rijdt rustig door.

Conclusie

HALP is als een onzichtbare veiligheidscontroleur die in de hersenen van de AI meekijkt. Hij geeft een seintje als de AI op het punt staat om een onzinverhaal te vertellen. Hierdoor kunnen we AI-systemen veiliger maken, sneller laten werken (want we hoeven niet te wachten op het antwoord om te controleren), en voorkomen dat er gevaarlijke fouten worden gemaakt.

Het is een stap in de richting van AI die niet alleen slim is, maar ook betrouwbaar.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →