Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Each language version is independently generated for its own context, not a direct translation.

UMPIRE: De "Twijfel-Checker" voor Slimme AI's

Stel je voor dat je een zeer slimme, veelzijdige assistent hebt die niet alleen tekst begrijpt, maar ook foto's, geluiden en video's. Deze assistent is zo slim dat hij vragen over een medische röntgenfoto of een geluidsopname van een vogel kan beantwoorden. Maar er is een probleem: soms is deze assistent te zelfverzekerd. Hij geeft een antwoord dat klinkt als een waarheid, maar is eigenlijk volledig verzonnen (een "hallucinatie").

In de echte wereld, zoals in ziekenhuizen of bij juridische zaken, is dit gevaarlijk. We willen weten: Kan ik dit antwoord vertrouwen, of moet ik een mens erbij halen?

Dit is waar UMPIRE (de titel van dit onderzoek) om de hoek komt kijken. Het is een slimme methode om de onzekerheid van deze AI te meten, zonder dat je extra dure software of menselijke trainers nodig hebt.

Hier is hoe het werkt, uitgelegd met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zelfverzekerde Leugenaar"

Stel je voor dat je de AI vraagt: "Hoeveel poten heeft deze hond?"

Goed geval: De AI kijkt naar de foto, denkt na, en zegt: "Vier." Als je vraagt om het nog eens te zeggen, zegt hij elke keer "Vier". Hij is zeker van zijn zaak.
Slecht geval (Hallucinatie): De AI kijkt naar de foto, maar ziet het niet goed. Hij denkt: "Ik denk dat het een kat is, of misschien een stoel?" Maar hij zegt toch zelfverzekerd: "Vijf."
- Als je hem vraagt het nog eens te zeggen, zegt hij misschien: "Zes", "Drie", "Vijf", "Twee".
- Het probleem: De AI zelf denkt misschien dat hij zeker is, maar zijn antwoorden zijn een chaos.

2. De Oplossing: UMPIRE als een "Twijfel-Checker"

UMPIRE is een methode die de AI dwingt om een antwoord 50 keer te geven (in het echt iets minder, maar het idee blijft hetzelfde). Vervolgens kijkt UMPIRE naar twee dingen:

A. De "Woordenschat-Check" (Semantische Diversiteit)

Stel je voor dat je een groep vrienden vraagt: "Wat zie je op deze foto?"

Als iedereen zegt: "Een hond", dan zijn ze het eens. De groep is compact.
Als de ene zegt "Een hond", de ander "Een auto", de derde "Een boom" en de vierde "Een pizza", dan is er geen overeenstemming. De antwoorden zijn verspreid over de hele wereld van betekenissen.

UMPIRE meet hoe "ver uit elkaar" deze antwoorden liggen in de denkwereld van de AI. Hoe verder uit elkaar, hoe groter de twijfel.

B. De "Zekerheids-Check" (Incoherentie)

Nu kijken we naar hoe de AI zelf over zijn antwoorden denkt.

Als de AI zegt "Het is een hond", maar hij is er maar 50% zeker van (hij twijfelt), dan is dat een teken van onzekerheid.
Als hij zegt "Het is een hond" en hij is 99% zeker, maar de foto is eigenlijk vaag, dan is dat gevaarlijk.

UMPIRE kijkt naar de interne "zekerheids-score" van de AI voor elk van die 50 antwoorden. Als de AI vaak twijfelt (lage zekerheid), telt dat als een groot rood vlaggetje.

3. De Magische Formule: De "Onzekerheids-Vol"

UMPIRE combineert deze twee checks tot één getal. Het werkt als een 3D-bubbel:

Hoe meer de antwoorden van elkaar verschillen (diversiteit)?
Hoe meer de AI zelf twijfelt aan zijn eigen antwoorden (incoherentie)?

Hoe groter de bubbel, hoe onzekerder de AI is.

Kleine bubbel: De AI is het eens met zichzelf en zeker van zijn zaak. -> Vertrouw het antwoord.
Grote bubbel: De AI schreeuwt tegen zichzelf en geeft willekeurige antwoorden. -> Stop! Roep een mens erbij.

Waarom is dit speciaal?

Vroeger waren er twee soorten manieren om dit te doen, en beide hadden grote nadelen:

De "Speciale Tool" methode: Je moest een extra, dure computerprogramma kopen dat alleen voor foto's werkte, en een ander voor geluid. Dat is niet schaalbaar.
De "Alleen Tekst" methode: Je keek alleen naar de woorden, maar negeerde dat de AI ook naar een foto keek.

UMPIRE is uniek omdat:

Het geen extra tools nodig heeft. Het gebruikt alleen de interne "hersenen" van de AI zelf.
Het werkt voor alles: foto's, geluid, video en tekst. Het is als een universele sleutel die bij elke deur past.
Het is snel en goedkoop. Het hoeft geen zware berekeningen te doen die dagen duren.

Het Resultaat in het Dagelijkse Leven

Stel je een ziekenhuis voor waar een AI helpt bij het analyseren van röntgenfoto's.

De AI zegt: "Ik zie een breuk."
Zonder UMPIRE: De arts vertrouwt de AI blindelings.
Met UMPIRE: De arts ziet dat de AI een "Grote Onzekerheids-Bubbel" heeft. De AI was het niet eens met zichzelf en twijfelde aan zijn eigen zekerheid.
Actie: De arts zegt: "Oké, ik ga deze foto zelf nog eens bekijken."

Dit voorkomt fouten en redt levens, zonder dat de AI ooit "stopt" met werken. UMPIRE is dus als een waarschuwingslampje dat aangeeft wanneer de slimme machine moet stoppen met praten en een mens moet laten ingrijpen.

Kortom: UMPIRE is de slimme manier om te vragen: "Weet jij echt wat je zegt, of ben je gewoon aan het ratelen?"

Each language version is independently generated for its own context, not a direct translation.

Titel

UMPIRE: Onzekerheidskwantificatie voor Multimodale Grootte Taalmodellen met Incoherentie-gecorrigeerd Semantisch Volume

1. Het Probleem

Multimodale Grootte Taalmodellen (MLLM's) hebben zich snel ontwikkeld en kunnen nu diverse invoermodaliteiten verwerken (zoals tekst, afbeeldingen, audio en video). Ondanks hun capaciteiten zijn ze echter vatbaar voor het produceren van plausibele maar foutieve outputs, vaak "hallucinaties" of "confabulaties" genoemd. Dit vormt een grote belemmering voor betrouwbare implementatie in hoog-risico scenario's (bijv. medische analyse).

Bestaande methoden voor onzekerheidskwantificatie (Uncertainty Quantification - UQ) hebben aanzienlijke beperkingen:

Ze zijn vaak ontworpen voor alleen tekstuele LLM's en missen multimodale coherentie.
Ze zijn afhankelijk van externe tools (zoals entailment-modellen of verifiers), wat de schaalbaarheid beperkt.
Ze zijn computationeel duur.
Ze vereisen modaliteit-specifieke engineering voor nieuwe data-types.

De kernvraag is: Kunnen we een effectief, trainingsvrij onzekerheidskader ontwikkelen dat generaliseert over verschillende modaliteiten zonder specifieke engineering of externe tools?

2. Methodologie: UMPIRE

De auteurs introduceren UMPIRE (Uncertainty using Model Probability Indicators and Response Embeddings), een trainingsvrij framework dat onzekerheid schat op basis van twee signalen: globale semantische diversiteit en lokale multimodale incoherentie.

Het framework werkt als volgt:

Stalen (Sampling): Voor een gegeven taakinstance $t$ worden $k$ antwoorden ( $y_i$ ) gegenereerd door de MLLM.
Semantische Embedding: Voor elk antwoord wordt de genormaliseerde embedding van het laatste EOS-token (einde van zin) uit de MLLM gehaald. Deze vormen een matrix $\Phi_t$ . De spreiding van deze vectoren in de semantische ruimte geeft een maat voor de diversiteit van de antwoorden.
Incoherentie Score: Voor elk antwoord wordt een incoherentie-score $c_i$ berekend op basis van de interne conditionele waarschijnlijkheid van het model ( $p_i$ ). Een lagere waarschijnlijkheid (hogere twijfel) resulteert in een hogere incoherentie-score. Dit zorgt ervoor dat het framework rekening houdt met de kwaliteit van de antwoorden en hun coherentie met de multimodale invoer.
Berekening van het Onzekerheidsscore: De uiteindelijke score $V_t$ wordt berekend als het incoherentie-gecorrigeerde semantische volume. Dit wordt gedaan via een determinant van een Gram-matrix die is aangepast met de incoherentie-scores (geïnspireerd door Determinantal Point Processes - DPP's):

$V_t = \frac{1}{2k} \log \det \left[ C_t (\Phi_t \Phi_t^\top + \epsilon I_k) C_t \right]$

Waarbij $C_t$ een diagonaalmatrix is met de incoherentie-scores.

Decompositie:
De auteurs tonen aan dat deze formule kan worden ontbonden in twee termen:

$U_t$ (Semantisch Volume): Meet de semantische spreiding van de antwoorden. Grote spreiding wijst op onzekerheid.
$Q_t$ (Kwadratische Entropie): Een Monte Carlo schatting van de verwachte incoherentie (gebaseerd op $1 - p_i$ ). Dit meet hoe verspreid de waarschijnlijkheidsmassa is.

De totale score is een gewogen som: $V_t = U_t + \alpha Q_t$ .

3. Belangrijkste Bijdragen

Desiderata voor MLLM-onzekerheid: De auteurs definiëren een set criteria waaraan een goede metric moet voldoen, waaronder discriminatie (fouten herkennen), risikolineariteit (continu risico-profiel), multimodale generaliseerbaarheid, multimodale coherentie en computationele efficiëntie.
Trainingsvrij Framework: UMPIRE vereist geen extra training, geen externe tools en geen modaliteit-specifieke engineering. Het gebruikt alleen de interne features van het MLLM zelf.
Theoretische Analyse: Er wordt een theoretisch onderbouwing gegeven die laat zien hoe de metric decomposeert in semantisch volume en kwadratische entropie, en hoe deze termen complementair werken om zowel semantische verwarring als probabilistische onzekerheid te vangen.
Generalisatie: Het framework werkt naadloos over verschillende invoermodaliteiten (beeld, audio, video) en zelfs voor generatietaken (beeld- en audiogeneratie).

4. Resultaten

UMPIRE is uitgebreid geëvalueerd op diverse benchmarks (VQAv2, OKVQA, AdVQA, SLUE, VidMME, etc.) en vergeleken met state-of-the-art baselines (zoals Semantic Entropy, Eigenscore, Neighborhood Consistency).

Discriminatie (R1): UMPIRE presteert consistent beter in het onderscheiden van juiste en foutieve antwoorden (gemeten via AUROC), met name in uitdagende scenario's zoals adversarial en out-of-distribution datasets.
Kwaliteit van Risicoscore (R2): UMPIRE toont een sterkere lineaire relatie tussen de onzekerheidsscore en de feitelijke foutkans (gemeten via CPC en ECE), wat betekent dat de scores beter gekalibreerd zijn.
Multimodale Coherentie (R4): Experimenten waarbij beeldinformatie werd verwijderd of verstoord, toonden aan dat UMPIRE zijn prestaties op een voorspelbare manier degradeert, wat aantoont dat het daadwerkelijk rekening houdt met multimodale coherentie. Baselines zoals Eigenscore reageerden hier niet op.
Efficiëntie (R5): UMPIRE is computationeel zeer efficiënt en vereist geen dure externe tools. Het presteert zelfs goed met een klein aantal samples ( $k=5$ ), wat het geschikt maakt voor real-time toepassingen.
Blackbox-toepassingen: Het framework kan ook worden toegepast op blackbox API-modellen (zoals GPT-4o) door gebruik te maken van een klein, witte-boks proxy-model om de embeddings en probabilities te berekenen.

5. Betekenis en Impact

Deze paper biedt een cruciale stap naar de veilige en betrouwbare implementatie van multimodale AI-systemen.

Betrouwbaarheid: Het stelt ontwikkelaars in staat om onbetrouwbare queries te detecteren en door te sturen naar menselijke experts of grotere modellen (escalatie).
Schaalbaarheid: Omdat het geen externe tools of specifieke training vereist, is het direct toepasbaar op nieuwe modaliteiten en modellen.
Veiligheid: Door hallucinaties en confabulaties effectief te detecteren, vermindert het risico op fouten in kritieke domeinen zoals de gezondheidszorg.

Kortom, UMPIRE lost het probleem op van het kwantificeren van onzekerheid in complexe multimodale modellen door een elegante combinatie van semantische diversiteit en model-interne waarschijnlijkheidssignalen te gebruiken, zonder de nadelen van bestaande methoden.