MLLM-based Textual Explanations for Face Comparison

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv, der zwei Gesichter vergleicht, um herauszufinden, ob es sich um dieselbe Person handelt. Früher haben Sie nur Ihre Augen benutzt. Heute haben Sie einen hochintelligenten, aber manchmal etwas verwirrten KI-Assistenten (einen sogenannten "Multimodalen Large Language Model" oder MLLM) an Ihrer Seite. Dieser Assistent kann nicht nur schauen, sondern auch erklären, warum er denkt, dass die Gesichter gleich oder unterschiedlich sind.

Das klingt toll, oder? Aber die Forscher Redwan Sony, Anil Jain und Arun Ross von der Michigan State University haben in ihrer Studie eine wichtige Entdeckung gemacht: Der Assistent ist oft ein guter Schauspieler, aber ein schlechter Beobachter.

Hier ist die Geschichte ihrer Forschung, einfach erklärt:

1. Der "Halluzinierende" Assistent

Stellen Sie sich vor, Sie zeigen dem Assistenten zwei Fotos: Eines ist eine Nahaufnahme von vorne, das andere eine extreme Seitenansicht (vielleicht sogar bei schlechtem Licht).

Das Problem: Der Assistent sagt oft: "Ja, das ist dieselbe Person!" (was richtig ist). Aber wenn er erklärt warum, erfindet er Dinge. Er sagt vielleicht: "Beide haben die gleiche Nasenform und Ohrenstruktur."
Die Realität: Auf dem zweiten Foto sind die Ohren gar nicht zu sehen! Der Assistent hat diese Details nicht gesehen, sondern sie einfach "erfunden", weil er im Internet gelernt hat, dass Menschen Ohren haben. Er nutzt sein Sprachwissen, nicht das, was er wirklich sieht. Das nennen die Forscher Halluzinationen.

2. Der Versuch mit dem "Spickzettel"

Die Forscher dachten sich: "Vielleicht hilft es, wenn wir dem Assistenten einen Spickzettel geben." Sie gaben ihm also nicht nur die Bilder, sondern auch die Ergebnisse eines klassischen Gesichtserkennungs-Computers (z. B. eine Wahrscheinlichkeitszahl: "90 % Match").

Das Ergebnis: Der Assistent wurde besser darin, die richtige Entscheidung zu treffen (Match oder kein Match). Er wurde also ein besserer Richter.
Aber: Seine Erklärungen wurden nicht ehrlicher. Er sagte immer noch Dinge wie "Die Ohren sehen gleich aus", obwohl er sie gar nicht sehen konnte. Der Spickzettel half ihm beim Ergebnis, aber nicht beim Vertrauen in seine Worte.

3. Der neue "Wahrheits-Test" (Likelihood Ratio)

Da man den Erklärungen nicht trauen konnte, entwickelten die Forscher einen neuen Test, um zu messen, wie "stark" eine Erklärung ist.

Die Analogie: Stellen Sie sich vor, Sie haben zwei große Säcke mit Kugeln.
- Sack A enthält Kugeln von echten Matches (echte Paare).
- Sack B enthält Kugeln von falschen Matches (fremde Paare).
- Wenn der Assistent eine Erklärung schreibt, wird diese in einen Code umgewandelt (eine Art "digitaler Fingerabdruck").
- Der neue Test schaut: "Ist dieser Fingerabdruck eher einem Sack A oder einem Sack B zuzuordnen?"
Das Ziel: Sie wollen nicht nur wissen, ob der Assistent richtig lag, sondern ob seine Begründung logisch und visuell fundiert ist. Der Test zeigte leider: Auch wenn der Assistent richtig lag, waren seine Begründungen oft nur "Luftschlösser" – sie passten nicht wirklich zu den Bildern.

4. Was bedeutet das für uns?

Die Studie zeigt uns eine wichtige Lektion für die Zukunft der KI:

Genauigkeit ist nicht alles: Ein System kann die richtige Antwort geben, aber die falsche Begründung liefern. Das ist gefährlich, besonders in Bereichen wie der Polizei oder Sicherheit, wo Erklärungen als Beweise dienen könnten.
Vertrauen braucht mehr: Wir können KI-Systemen nicht blind vertrauen, nur weil sie "schön reden" können. Wir brauchen neue Methoden, um zu prüfen, ob die KI wirklich sieht, was sie beschreibt, oder ob sie nur ratet.

Zusammenfassend:
Die Forscher haben gezeigt, dass unsere aktuellen KI-Assistenten beim Gesichtervergleich oft wie Schauspieler sind, die eine gute Rolle spielen, aber die Wahrheit verdrehen. Sie geben zwar oft die richtige Antwort, aber ihre Geschichten (die Erklärungen) sind oft erfunden. Der neue Test hilft uns, diese Lügen zu entlarven, aber wir müssen noch lernen, wie wir KI dazu bringen, wirklich ehrlich zu sein und nur das zu sagen, was sie auch wirklich sehen.

Each language version is independently generated for its own context, not a direct translation.

Titel: MLLM-basierte textuelle Erklärungen für den Gesichtsvergleich

Autoren: Redwan Sony, Anil K. Jain, Arun Ross (Michigan State University)

1. Problemstellung

Multimodale Large Language Models (MLLMs) wie GPT-4o oder Gemini werden zunehmend eingesetzt, um natürliche Spracherklärungen für Entscheidungen in der Gesichtserkennung (Face Recognition, FR) zu generieren. Ziel ist es, die Interpretierbarkeit dieser Systeme für Menschen zu erhöhen.
Das zentrale Problem, das in dieser Arbeit identifiziert wird, ist die mangelnde Zuverlässigkeit und Glaubwürdigkeit dieser Erklärungen, insbesondere bei unkontrollierten („in-the-wild") Bildern.

Halluzinationen: MLLMs neigen dazu, nicht verifizierbare oder halluzinierte Gesichtsmerkmale zu beschreiben, die nicht durch die visuellen Beweise gestützt werden.
Diskrepanz zwischen Entscheidung und Erklärung: Selbst wenn ein MLLM die korrekte Verifikationsentscheidung (Match/Non-Match) trifft, kann die begleitende textuelle Erklärung irreführend, ungenau oder visuell nicht fundiert sein.
Risiko: In forensischen oder sicherheitskritischen Anwendungen, wo Erklärungen als Beweismittel dienen könnten, ist diese Unzuverlässigkeit ein kritisches Hindernis.
Offene Frage: Verbessert die Integration von Informationen aus klassischen FR-Systemen (z. B. Ähnlichkeitswerte oder binäre Entscheidungen) die Zuverlässigkeit der Erklärungen?

2. Methodik

Die Autoren schlagen einen mehrstufigen Ansatz vor, der sowohl die kategoriale Verifikationsleistung als auch die Qualität der Erklärungen analysiert.

A. Likelihood-Ratio (LR) Framework

Um die Stärke der textuellen Erklärungen unabhängig von der Richtigkeit der finalen Entscheidung zu bewerten, führen die Autoren ein likelihood-ratio-basiertes Framework ein:

Text-Generierung: MLLMs generieren Erklärungen für Gesichts-Paare (Echte Paare vs. Impostor-Paare).
Embedding & Dimensionsreduktion: Die Texte werden in Vektoren kodiert (mittels text-embedding-3-small) und mittels PCA (Principal Component Analysis) auf eine niedrigere Dimension reduziert, um 97% der Varianz zu behalten.
Gaussian Mixture Modeling (GMM): Es werden separate Gaußsche Mischmodelle für die Verteilungen der Embeddings unter der Hypothese „Echt" ( $H_0$ ) und „Impostor" ( $H_1$ ) gelernt.
Bewertung: Für neue Erklärungen wird das Verhältnis der Wahrscheinlichkeiten $P_0(z) / P_1(z)$ berechnet. Dieser Likelihood-Ratio-Wert dient als Maß für die evidenzielle Stärke der Erklärung, unabhängig davon, ob die ursprüngliche Klassifizierung korrekt war.

B. Multi-Level Prompting Strategie

Um den Einfluss von Zusatzinformationen zu testen, werden verschiedene Prompting-Strategien auf dem IJB-S-Datensatz (bekannt für extreme Pose-Variationen und Überwachungsbilder) angewendet:

Grounded Prompting: Nur für das Training (Labels werden mitgegeben).
No-Score: Nur die Bilder werden eingegeben (reine visuelle Evidenz).
Score-only: Bilder + Ähnlichkeitswerte eines FR-Systems (ohne Entscheidung).
Score+Decision: Bilder + Ähnlichkeitswerte + binäre Entscheidung (bei 0,01% False Match Rate).

C. Datensätze

Training: BUPT-CBFace (13.200 Paare).
Testing: IJB-S (10.000 Paare, Still-to-Still-Verifikation), ein herausfordernder Benchmark für extreme Posen.

3. Wichtige Beiträge

Systematische Evaluation: Eine umfassende Analyse von MLLM-Erklärungen unter extremen Pose-Variationen, die eine Lücke zwischen korrekter Entscheidung und wahrheitsgetreuer Erklärung aufzeigt.
Analyse von FR-Informationen: Untersuchung, wie Ähnlichkeitswerte und Entscheidungen klassischer FR-Systeme die Leistung von MLLMs beeinflussen.
Neues Evaluations-Framework: Einführung des LR-basierten Ansatzes zur Quantifizierung der evidenziellen Stärke von Texten, der über die reine Genauigkeit (Accuracy) hinausgeht.
Empirische Erkenntnisse: Identifikation von Szenarien, in denen MLLMs visuell fundierte Erklärungen liefern, und solchen, in denen sie sich auf sprachliche Priors verlassen.

4. Ergebnisse

Verifikationsleistung:
- MLLMs allein (ohne FR-Hilfe) machen Fehler, besonders bei echten Paaren mit extremen Posen.
- Die Integration von FR-Scores und -Entscheidungen verbessert die Impostor-Erkennung signifikant (z. B. von niedrigen Werten auf bis zu 98,6% für GPT-4o mit Scores+Decisions).
- Dennoch bleibt die Genauigkeit bei echten Paaren oft begrenzt, und kommerzielle FR-Systeme (COTS) erreichen fast 100% Genauigkeit, liefern aber keine Erklärungen.
Qualität der Erklärungen (Halluzinationen):
- Selbst wenn die Entscheidung korrekt ist, basieren die Erklärungen häufig auf nicht verifizierbaren Merkmalen.
- Die Einbeziehung von FR-Scores verbessert die kategoriale Trennbarkeit der Embeddings (bessere Clusterbildung im t-SNE-Plot), führt aber nicht konsistent zu glaubwürdigeren Erklärungen.
- MLLMs nutzen FR-Scores oft nur, um ihre Entscheidung zu bestätigen, ohne die visuelle Evidenz in der Textbeschreibung tatsächlich zu verbessern.
Likelihood-Ratio Ergebnisse:
- Das LR-Framework zeigt, dass Erklärungen, die mit FR-Informationen generiert wurden, eine höhere evidenzielle Stärke aufweisen als reine Bild-Prompts.
- Dennoch bleibt das Problem der „Halluzination" bestehen: Linguistisch konsistente Erklärungen können immer noch visuelle Merkmale erfinden, die nicht existieren.

5. Bedeutung und Fazit

Die Arbeit unterstreicht ein fundamentales Dilemma in der erklärbaren KI (XAI) für Biometrie: Hohe Genauigkeit und hohe Transparenz stehen oft in Konflikt.

Kritische Erkenntnis: Die Korrektheit einer Verifikationsentscheidung garantiert nicht die Glaubwürdigkeit der dazugehörigen Erklärung.
Limitation: Das vorgeschlagene LR-Framework misst die Konsistenz im Embedding-Raum, validiert aber nicht direkt die visuelle Fundierung (Grounding). Es dient als Proxy für die Zuverlässigkeit.
Zukunftsausblick: Es besteht ein dringender Bedarf an Prinzipien zur Bewertung zuverlässiger Erklärungen in biometrischen Anwendungen, insbesondere in forensischen Kontexten. Die direkte Verknüpfung textueller Attribute mit visuellen Beweisen bleibt eine offene Herausforderung für zukünftige Forschung.

Zusammenfassend zeigt das Paper, dass MLLMs zwar vielversprechende Erklärungen generieren können, diese jedoch derzeit nicht als verlässliche Beweismittel in sicherheitskritischen Anwendungen ohne weitere Validierung eingesetzt werden sollten.