Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification

Dit artikel introduceert Evidential Uncertainty Quantification (EUQ), een verfijnde methode die bewijstheorie toepast om interne conflicten en kennisgaten in grote visueel-taalmodellen te detecteren, waardoor onbetrouwbare gedragingen zoals hallucinaties en veiligheidsrisico's effectiever kunnen worden geïdentificeerd dan met bestaande methoden.

Tao Huang, Rui Wang, Xiaofei Liu, Yi Qin, Li Duan, Liping Jing

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Zenuwachtige Camera" van AI: Hoe we zien of een slimme robot twijfelt of liegt

Stel je voor dat je een zeer slimme, digitale assistent hebt die foto's kan bekijken en erover kan praten. Dit is een Large Vision-Language Model (LVLM). Het kan zeggen: "Ik zie een hond op een bank," of "Dat is een mooi zonsondergang." Maar soms maakt deze assistent rare fouten. Soms verzint hij dingen die er niet zijn (hallucinaties), soms laat hij zich misleiden door een trucje (jailbreak), en soms raakt hij in de war als hij iets ziet dat hij nog nooit heeft gezien (OOD-fouten).

De onderzoekers van dit paper willen weten: Waarom maakt deze assistent fouten, en kunnen we dat voorspellen voordat hij het zegt?

Het Probleem: De "Zekerheid" is een leugen

Tot nu toe keken we naar hoe zeker de AI was. Maar AI is vaak te zeker, zelfs als het volledig in de war is. Het is alsof een kind dat een raadsel niet kent, toch heel hard roept: "Het is een giraf!" terwijl er een koe op de foto staat. We hebben een manier nodig om te zien waarom de AI twijfelt.

De onderzoekers ontdekten dat er twee soorten twijfel zijn, en ze hebben een nieuwe manier bedacht om deze te meten zonder de AI opnieuw te hoeven trainen.

De Oplossing: De "Bewijs-Verzamelaar" (EUQ)

De onderzoekers noemen hun methode EUQ (Evidential Uncertainty Quantification). Om dit uit te leggen, gebruiken we een analogie met een rechter in een rechtszaal.

Stel je voor dat de AI een rechter is die een zaak moet beoordelen. In plaats van alleen te kijken naar de uitspraak, kijken we naar de bewijsstukken die de rechter in zijn hoofd verzamelt voordat hij een vonnis velt.

De onderzoekers ontdekten dat er twee soorten "problemen" zijn met deze bewijsstukken:

1. Conflict (De "Tweestrijd")

Soms heeft de AI twee bewijsstukken die elkaar volledig tegenspreken.

  • Analogie: De rechter heeft een getuige die zegt: "Ik zag een blauwe auto," en een andere getuige die schreeuwt: "Nee, het was een rode vrachtwagen!"
  • In de AI: De tekst op de foto zegt "Vissen", maar de afbeelding toont duidelijk een goudvis. De AI probeert beide te geloven. Dit noemen ze Conflict (CF).
  • Gevolg: Als de AI veel Conflict heeft, betekent dit vaak dat hij hallucineert. Hij probeert twee tegenstrijdige verhalen tegelijk waar te maken en verzint daarom iets onzinigs.

2. Onwetendheid (De "Lege Map")

Soms heeft de AI gewoon geen bewijsstukken.

  • Analogie: De rechter kijkt naar een raadselachtig object en zegt: "Ik heb nog nooit iets gezien dat hierop lijkt. Ik heb geen idee wat dit is, dus ik moet raden."
  • In de AI: De AI ziet een vreemd, onbekend object (bijvoorbeeld een nieuw soort gereedschap dat niet in zijn training zat). Hij heeft geen referentiepunten. Dit noemen ze Onwetendheid (IG).
  • Gevolg: Als de AI veel Onwetendheid heeft, betekent dit vaak dat hij verkeerd is ingeschat omdat hij iets zag dat buiten zijn kennis ligt (Out-of-Distribution).

Hoe werkt het in de praktijk?

De onderzoekers kijken niet naar het eindantwoord van de AI, maar naar de voorbereidende gedachten (de "pre-logits") die de AI heeft net voordat hij een woord kiest.

Ze gebruiken een wiskundige regel (Dempster-Shafer theorie) die werkt als een magische weegschaal:

  1. Ze nemen de signalen uit de AI.
  2. Ze splitsen ze op in "steun" (bewijs dat iets waar is) en "tegenbewijs" (bewijs dat iets onwaar is).
  3. Ze wegen deze tegen elkaar af.
    • Veel steun + veel tegenbewijs = Hoog Conflict (De AI is in de war).
    • Weinig steun + weinig tegenbewijs = Hoge Onwetendheid (De AI weet het niet).

Waarom is dit geweldig?

  1. Snelheid: Het kost maar één keer kijken naar de foto. Andere methoden moeten de AI 10 of 20 keer laten "dromen" om te zien of het antwoord hetzelfde blijft. Dit is traag en duur. De nieuwe methode is als een snelle blik op de zenuwen van de AI.
  2. Precisie: Het kan vertellen waarom de AI faalt.
    • Zie je veel Conflict? Dan is het waarschijnlijk een hallucinatie (de AI liegt).
    • Zie je veel Onwetendheid? Dan is het waarschijnlijk een onbekend object (de AI is niet getraind op dit soort dingen).
  3. Veiligheid: Dit is cruciaal voor auto's die zelf rijden of artsen die diagnoses stellen. Als de AI zegt: "Ik zie een stopbord," maar onze meter toont Hoge Onwetendheid, dan weten we: "Wacht, vertrouw dit niet, het bord is misschien beschadigd of vreemd."

Conclusie

Dit paper introduceert een slimme manier om de "zenuwen" van een AI te meten. In plaats van blindelings te vertrouwen op wat de AI zegt, kijken we naar de interne strijd (Conflict) of de lege plekken (Onwetendheid) in zijn hoofd. Hierdoor kunnen we veel sneller en nauwkeuriger zien wanneer een slimme machine begint te liegen of wanneer hij gewoon niet weet wat hij ziet. Het is alsof we een leugendetector hebben gebouwd die specifiek is voor de manier waarop AI denkt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →