MLLM-based Textual Explanations for Face Comparison

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-intelligente robot hebt die niet alleen foto's van gezichten kan zien, maar ook een prachtig verhaal kan vertellen over waarom twee mensen op elkaar lijken of juist niet. Dit is wat "Multimodale Large Language Models" (MLLM's) doen: ze kijken naar een foto en schrijven een tekstuele uitleg, alsof ze een detective zijn die zijn bevindingen aan een rechter uitlegt.

Deze nieuwe studie van onderzoekers aan de Michigan State University kijkt echter kritisch naar deze robot-detectives. Ze stellen de vraag: "Is wat de robot zegt ook echt waar, of verzint hij gewoon een mooi verhaal?"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Verzonnen Detective"

Stel je voor dat je twee foto's van dezelfde persoon hebt, maar op de ene foto staat hij schuin van opzij (alsof hij naar de horizon kijkt) en op de andere staat hij recht voor de camera. Voor een mens is het soms al lastig om te zien dat het dezelfde persoon is.

De robot (bijvoorbeeld GPT-4o) kijkt naar deze foto's en zegt: "Ja, dit is dezelfde persoon!" – en dat is vaak goed. Maar als je vraagt: "Waarom?", dan schrijft de robot een heel gedetailleerd verhaal.

Het probleem: De robot zegt soms dingen als: "Ze hebben dezelfde vorm van de oren en dezelfde huidskleur."
De realiteit: Op de foto's zijn de oren helemaal niet te zien vanwege de hoek, of de belichting is zo verschillend dat je de huidskleur niet goed kunt beoordelen.

De robot hallucineert (verzonnen) details die er niet zijn. Het is alsof een detective in een donkere kamer zegt: "Ik zag dat de dader een rode hoed droeg," terwijl er in de kamer helemaal geen licht was en niemand een hoed had. Het verhaal klinkt logisch, maar het is niet gebaseerd op wat er echt te zien is.

2. De Test: De "Zware Oefening"

De onderzoekers hebben deze robots getest op een heel moeilijke dataset genaamd IJB-S. Dit is als een "zwarte doos" met foto's van mensen in surveillance-camera's, vaak met slecht licht, rare hoeken of mensen die hun gezicht verdraaien.

Ze hebben de robots op drie manieren getest:

Alleen kijken: De robot krijgt alleen de foto's.
Kijken + een hint: De robot krijgt de foto's én een cijfer van een traditionele gezichtsherkenningcomputer (bijv. "80% waarschijnlijkheid dat het matcht").
Kijken + hint + antwoord: De robot krijgt de foto's, het cijfer én het antwoord van de traditionele computer (bijv. "Ja, het is een match").

Wat bleek?

Als je de robot extra informatie geeft (de cijfers en antwoorden van de traditionele computer), wordt hij slimmer in het geven van het juiste antwoord (Match of Niet-match).
MAAR: De verhalen die hij erbij schrijft, worden niet per se eerlijker. Hij blijft soms details verzinnen die hij niet kan zien, zelfs als hij het juiste antwoord weet. Het is alsof je een leerling helpt met het juiste antwoord, maar hij blijft de verkeerde redenering gebruiken om daar te komen.

3. De Oplossing: De "Eerlijkheids-meter"

Omdat het moeilijk is om te zien of een verhaal waar is, hebben de onderzoekers een nieuwe manier bedacht om de robot te testen. Ze noemen dit een Kansverhouding-meting (Likelihood Ratio).

Stel je voor dat je twee zakken hebt:

Zak A: Vol met verhalen die echt waar zijn (gebaseerd op de foto).
Zak B: Vol met verhalen die verzonnen zijn of vaag.

De onderzoekers hebben een wiskundig systeem gebouwd dat een nieuw verhaal van de robot pakt en kijkt: "Hoort dit verhaal meer bij Zak A of bij Zak B?"

Als het verhaal sterk lijkt op de "wazige" verhalen, krijgt het een lage score.
Als het verhaal sterk lijkt op de "echte" verhalen, krijgt het een hoge score.

Dit helpt hen om te meten hoe betrouwbaar de uitleg is, los van of het antwoord van de robot wel of niet klopt.

4. De Grote Les: Vertrouwen is niet genoeg

De belangrijkste conclusie van dit papier is een waarschuwing voor de toekomst, vooral voor veiligheidsdiensten en justitie:

Traditionele gezichtsherkenning (de oude computers) is supergoed in het geven van een ja/nee-antwoord, maar ze kunnen geen verhaal vertellen.
Nieuwe AI-robots kunnen prachtige verhalen vertellen, maar die verhalen zijn vaak niet betrouwbaar als het om moeilijke foto's gaat.

Het is alsof je een mooi geschreven brief krijgt van een advocaat die zegt dat je onschuldig bent, maar die brief is gebaseerd op verzonnen feiten. Dat is gevaarlijk in de rechtbank.

Kortom:
We hebben nu robots die kunnen praten over gezichten, maar ze zijn nog niet te vertrouwen als "getuigen". Ze kunnen net zo goed een mooi verhaal verzinnen als dat ze de waarheid spreken. De onderzoekers zeggen: "We moeten eerst een manier vinden om te checken of hun verhalen echt gebaseerd zijn op wat ze zien, voordat we ze in de echte wereld gaan gebruiken."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Multimodale Grootte Taalmodellen (MLLMs) zoals GPT-4o en Gemini veelbelovend zijn voor het genereren van natuurlijke taalverklaringen voor gezichtsherkenning (Face Recognition - FR), blijft hun betrouwbaarheid op onbeperkte (unconstrained) gezichtsafbeeldingen onderzocht. Het paper identificeert een kritiek probleem: zelfs wanneer een MLLM de juiste verificatiebeslissing (match/non-match) neemt, zijn de bijbehorende tekstuele verklaringen vaak onnauwkeurig, niet-verifieerbaar of gebaseerd op "hallucinaties" (niet-ondersteunde gezichtskenmerken).

Dit is vooral problematisch in forensische en beveiligingstoepassingen, waar verklaringen als bewijs kunnen worden geïnterpreteerd. De auteurs tonen aan dat er een fundamentele kloof bestaat tussen de correctheid van de beslissing en de "trouw" (faithfulness) van de verklaring, met name bij extreme pose-variaties en surveillance-beelden (zoals in de IJB-S dataset).

Methodologie

De auteurs stellen een nieuwe evaluatieframework voor dat verder gaat dan de traditionele categorische nauwkeurigheid (juist/onjuist).

Likelihood Ratio (LR) Framework:
- In plaats van alleen te kijken of het antwoord klopt, meten ze de evidentiële sterkte van de tekstuele verklaring.
- Trainingsfase: MLLM-gegenereerde verklaringen voor echte paren (genuine) en nepparen (impostor) worden omgezet in tekst-embeddings (met text-embedding-3-small). Na dimensiereductie (PCA) worden deze verdelingen gemodelleerd met Gaussian Mixture Models (GMMs) voor beide hypotheses ( $H_0$ : echt, $H_1$ : nep).
- Testfase: Voor een nieuwe gezichtscombinatie wordt een verklaring gegenereerd, ingebed en de waarschijnlijkheid wordt berekend onder beide GMM-verdelingen. De Likelihood Ratio ( $\Lambda(z) = P_0(z) / P_1(z)$ ) geeft een genormaliseerde score die de sterkte van het bewijs in de tekst aangeeft, onafhankelijk van de uiteindelijke beslissing.
Multi-level Prompting Strategie:
Om te onderzoeken of aanvullende informatie de betrouwbaarheid verbetert, worden verschillende prompt-strategieën getest:
- Grounded: De MLLM krijgt de ground-truth label (echt/nep) mee (alleen voor training).
- No-score: Alleen de afbeeldingen.
- Score-only: Afbeeldingen + similariteitsscore van een traditioneel FR-systeem.
- Score+Decision: Afbeeldingen + score + binaire beslissing (bijv. 0.01% FMR drempel).
Datasets:
- Training: BUPT-CBFace dataset (13.200 paren).
- Testing: IJB-S dataset (Still-to-Still protocol, 10.000 paren), bekend om zijn extreme pose-variaties en surveillance-kwaliteit.

Belangrijkste Resultaten

Decisie vs. Verklaring: Zelfs wanneer MLLMs (GPT-4o, Gemini-2.5) de juiste verificatiebeslissing maken, bevatten de verklaringen vaak hallucinaties. Bijvoorbeeld, het beschrijven van kenmerken die door de pose niet zichtbaar zijn (zoals de vorm van de neus in profiel).
Invloed van FR-informatie: Het toevoegen van scores en beslissingen van traditionele FR-systemen verbetert de categorische nauwkeurigheid aanzienlijk (bijv. impostor-detectie stijgt naar 98,6% bij GPT-4o met score+decision). Echter, dit leidt niet consistent tot meer betrouwbare of visueel onderbouwde verklaringen.
Cluster Scheiding: De analyse van de embedding-ruimte toont aan dat FR-informatie de scheiding tussen "echt" en "nep" verklaringen verbetert (gemeten via Silhouette-coëfficiënt en Fisher-ratio), maar deze scheiding is niet perfect.
Vergelijking met COTS: Commerciële FR-systemen (COTS) bereiken bijna 100% nauwkeurigheid op IJB-S maar leveren geen tekstuele verklaringen. Dit onderstreept de trade-off tussen pure nauwkeurigheid en transparantie.
LR-Evaluatie: Het LR-framework toont aan dat verklaringen die gebaseerd zijn op visuele prikkels (zonder FR-informatie) vaak zwakker zijn dan die met FR-informatie, maar dat zelfs de beste prompts nog steeds hallucinaties bevatten.

Bijdragen

Systeematische Evaluatie: Een gedetailleerde analyse van MLLM-verklaringen voor gezichtsherkenning onder extreme omstandigheden, die de kloof tussen beslissing en verklaring blootlegt.
Effectanalyse: Onderzoek naar hoe traditionele FR-outputs (scores/decisions) de prestaties en betrouwbaarheid van MLLMs beïnvloeden.
Nieuw Framework: Introductie van een Likelihood-Ratio gebaseerd framework om de evidentiële kracht van tekstuele verklaringen kwantitatief te meten, losgekoppeld van de beslissingen.
Empirische Inzichten: Het leveren van bewijs dat MLLMs vaak vertrouwen op taalkundige priors in plaats van visuele bewijzen, zelfs bij correcte beslissingen.

Significantie en Conclusie

Dit paper benadrukt dat de huidige MLLMs niet betrouwbaar zijn als "explainable AI"-tools voor biometrische toepassingen zoals forensiek of beveiliging, tenzij er strenge validatiemethoden worden toegepast. Het feit dat een model de juiste beslissing neemt, garandeert niet dat de redenatie correct is.

De voorgestelde LR-methode biedt een manier om de kwaliteit van deze verklaringen te meten zonder ground-truth labels nodig te hebben tijdens de testfase. De auteurs concluderen dat er nog veel werk moet worden verzet om de link tussen tekstuele attributen en visueel bewijs te versterken, en dat een principiële evaluatie van betrouwbare verklaringen essentieel is voor de veilige implementatie van deze technologie.

MLLM-based Textual Explanations for Face Comparison

1. Het Probleem: De "Verzonnen Detective"

2. De Test: De "Zware Oefening"

3. De Oplossing: De "Eerlijkheids-meter"

4. De Grote Les: Vertrouwen is niet genoeg

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents