MLLM-based Textual Explanations for Face Comparison

Deze studie analyseert systematisch de betrouwbaarheid van door Multimodale Grootte Taalmodellen gegenereerde tekstuele uitleg voor gezichtverificatie en onthult dat, zelfs bij correcte beslissingen, de uitleg vaak hallucinaties bevat, wat de noodzaak onderstreept van een principieel evaluatiekader voor betrouwbare biometrische toepassingen.

Redwan Sony, Anil K Jain, Ross Arun

Gepubliceerd 2026-03-18
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-intelligente robot hebt die niet alleen foto's van gezichten kan zien, maar ook een prachtig verhaal kan vertellen over waarom twee mensen op elkaar lijken of juist niet. Dit is wat "Multimodale Large Language Models" (MLLM's) doen: ze kijken naar een foto en schrijven een tekstuele uitleg, alsof ze een detective zijn die zijn bevindingen aan een rechter uitlegt.

Deze nieuwe studie van onderzoekers aan de Michigan State University kijkt echter kritisch naar deze robot-detectives. Ze stellen de vraag: "Is wat de robot zegt ook echt waar, of verzint hij gewoon een mooi verhaal?"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Verzonnen Detective"

Stel je voor dat je twee foto's van dezelfde persoon hebt, maar op de ene foto staat hij schuin van opzij (alsof hij naar de horizon kijkt) en op de andere staat hij recht voor de camera. Voor een mens is het soms al lastig om te zien dat het dezelfde persoon is.

De robot (bijvoorbeeld GPT-4o) kijkt naar deze foto's en zegt: "Ja, dit is dezelfde persoon!" – en dat is vaak goed. Maar als je vraagt: "Waarom?", dan schrijft de robot een heel gedetailleerd verhaal.

  • Het probleem: De robot zegt soms dingen als: "Ze hebben dezelfde vorm van de oren en dezelfde huidskleur."
  • De realiteit: Op de foto's zijn de oren helemaal niet te zien vanwege de hoek, of de belichting is zo verschillend dat je de huidskleur niet goed kunt beoordelen.

De robot hallucineert (verzonnen) details die er niet zijn. Het is alsof een detective in een donkere kamer zegt: "Ik zag dat de dader een rode hoed droeg," terwijl er in de kamer helemaal geen licht was en niemand een hoed had. Het verhaal klinkt logisch, maar het is niet gebaseerd op wat er echt te zien is.

2. De Test: De "Zware Oefening"

De onderzoekers hebben deze robots getest op een heel moeilijke dataset genaamd IJB-S. Dit is als een "zwarte doos" met foto's van mensen in surveillance-camera's, vaak met slecht licht, rare hoeken of mensen die hun gezicht verdraaien.

Ze hebben de robots op drie manieren getest:

  1. Alleen kijken: De robot krijgt alleen de foto's.
  2. Kijken + een hint: De robot krijgt de foto's én een cijfer van een traditionele gezichtsherkenningcomputer (bijv. "80% waarschijnlijkheid dat het matcht").
  3. Kijken + hint + antwoord: De robot krijgt de foto's, het cijfer én het antwoord van de traditionele computer (bijv. "Ja, het is een match").

Wat bleek?

  • Als je de robot extra informatie geeft (de cijfers en antwoorden van de traditionele computer), wordt hij slimmer in het geven van het juiste antwoord (Match of Niet-match).
  • MAAR: De verhalen die hij erbij schrijft, worden niet per se eerlijker. Hij blijft soms details verzinnen die hij niet kan zien, zelfs als hij het juiste antwoord weet. Het is alsof je een leerling helpt met het juiste antwoord, maar hij blijft de verkeerde redenering gebruiken om daar te komen.

3. De Oplossing: De "Eerlijkheids-meter"

Omdat het moeilijk is om te zien of een verhaal waar is, hebben de onderzoekers een nieuwe manier bedacht om de robot te testen. Ze noemen dit een Kansverhouding-meting (Likelihood Ratio).

Stel je voor dat je twee zakken hebt:

  • Zak A: Vol met verhalen die echt waar zijn (gebaseerd op de foto).
  • Zak B: Vol met verhalen die verzonnen zijn of vaag.

De onderzoekers hebben een wiskundig systeem gebouwd dat een nieuw verhaal van de robot pakt en kijkt: "Hoort dit verhaal meer bij Zak A of bij Zak B?"

  • Als het verhaal sterk lijkt op de "wazige" verhalen, krijgt het een lage score.
  • Als het verhaal sterk lijkt op de "echte" verhalen, krijgt het een hoge score.

Dit helpt hen om te meten hoe betrouwbaar de uitleg is, los van of het antwoord van de robot wel of niet klopt.

4. De Grote Les: Vertrouwen is niet genoeg

De belangrijkste conclusie van dit papier is een waarschuwing voor de toekomst, vooral voor veiligheidsdiensten en justitie:

  • Traditionele gezichtsherkenning (de oude computers) is supergoed in het geven van een ja/nee-antwoord, maar ze kunnen geen verhaal vertellen.
  • Nieuwe AI-robots kunnen prachtige verhalen vertellen, maar die verhalen zijn vaak niet betrouwbaar als het om moeilijke foto's gaat.

Het is alsof je een mooi geschreven brief krijgt van een advocaat die zegt dat je onschuldig bent, maar die brief is gebaseerd op verzonnen feiten. Dat is gevaarlijk in de rechtbank.

Kortom:
We hebben nu robots die kunnen praten over gezichten, maar ze zijn nog niet te vertrouwen als "getuigen". Ze kunnen net zo goed een mooi verhaal verzinnen als dat ze de waarheid spreken. De onderzoekers zeggen: "We moeten eerst een manier vinden om te checken of hun verhalen echt gebaseerd zijn op wat ze zien, voordat we ze in de echte wereld gaan gebruiken."

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →