MLLM-based Textual Explanations for Face Comparison

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un détective très intelligent, capable de parler et de voir, mais qui a parfois tendance à rêver éveillé quand il doit comparer deux visages. C'est l'histoire de cette recherche menée par des experts de l'Université d'État du Michigan.

Voici une explication simple de leur travail, avec quelques images pour vous aider à visualiser.

1. Le Problème : Le Détective qui "Invente" des Preuves

Dans le monde de la reconnaissance faciale (comme pour déverrouiller votre téléphone ou identifier un suspect), les ordinateurs sont devenus excellents pour dire : "Oui, c'est la même personne" ou "Non, ce sont deux personnes différentes".

Récemment, on a ajouté à ces ordinateurs des Modèles de Langage Multimodaux (MLLM). C'est comme donner un stylo et un cahier à l'ordinateur pour qu'il écrive une explication de sa décision.

L'idée : Si l'ordinateur dit "C'est le même homme", il devrait pouvoir écrire : "Parce qu'ils ont le même nez et la même forme de visage."
La réalité (selon l'article) : Parfois, l'ordinateur a raison sur la réponse ("C'est le même"), mais il invente les raisons. Il peut dire : "Ils ont la même cicatrice sur le front" alors qu'il n'y en a aucune. C'est ce qu'on appelle une hallucination.

L'analogie du "Témoin Menteur" :
Imaginez un témoin dans un tribunal qui dit : "J'ai vu le suspect, c'est bien lui !" (La réponse est juste). Mais quand le juge demande "Comment le saviez-vous ?", le témoin répond : "Parce qu'il portait un chapeau rouge" (alors qu'il portait un bonnet bleu). Le témoin a raison sur l'identité, mais il ment sur les détails. Dans la sécurité, c'est dangereux : on ne peut pas se fier à une explication qui n'est pas basée sur la réalité visuelle.

2. L'Expérience : Tester le Détective dans des Conditions Difficiles

Les chercheurs ont testé ces intelligences artificielles sur une base de données très difficile (IJB-S), où les photos sont prises dans des conditions de surveillance :

Des gens de profil ou de dos.
De la mauvaise lumière.
Des expressions bizarres.

Ils ont demandé aux IA de comparer des visages et de donner une explication.
Le résultat ? Même quand l'IA se trompait de réponse, elle inventait des détails. Et même quand elle avait la bonne réponse, son explication était souvent remplie de mensonges visuels.

3. La Solution Tente : Donner des Indices à l'IA

Les chercheurs se sont demandé : "Et si on donnait à l'IA les notes d'un autre système de reconnaissance faciale (qui est très précis mais ne parle pas) ?"
Ils ont essayé de donner à l'IA :

Juste les photos.
Les photos + un score de similarité (ex: "85% de chance que ce soit le même").
Les photos + le score + la décision finale ("Oui/Non").

Ce qui s'est passé :

La décision s'est améliorée : L'IA a eu plus souvent raison sur le "Oui/Non".
L'explication est restée fragile : Même avec les indices, l'IA continuait parfois à inventer des détails. C'est comme si on donnait à un élève la réponse correcte d'un exercice, mais qu'il inventait toujours sa propre méthode pour y arriver, même si cette méthode était fausse.

4. La Nouvelle Méthode : Le "Test de Vérité" (Le Ratio de Vraisemblance)

Comment savoir si une explication est fiable sans la comparer à la réalité (parfois on ne connaît pas la vérité) ?
Les chercheurs ont créé un outil mathématique appelé Ratio de Vraisemblance (Likelihood Ratio).

L'analogie du "Détecteur de Mensonge Statistique" :
Imaginez que vous avez deux grands sacs de billes :

Sac A (Vraisemblable) : Contient des explications écrites par l'IA quand elle compare deux vrais jumeaux.
Sac B (Improbable) : Contient des explications quand elle compare deux étrangers.

Quand l'IA produit une nouvelle explication, votre outil regarde : "Est-ce que cette phrase ressemble plus à celles du Sac A ou du Sac B ?"

Si elle ressemble au Sac A, le score de confiance est élevé.
Si elle ressemble au Sac B, c'est suspect.

Ce système ne regarde pas si l'IA a raison ou tort sur l'identité, mais si la logique de son texte est cohérente avec ce qu'on attend d'une vraie comparaison.

5. La Conclusion : Le Dilemme de la Transparence

L'article conclut sur un point important :

Les systèmes classiques (comme ceux des banques ou des aéroports) sont parfaits pour dire "Oui/Non", mais ils sont muets. Ils ne donnent aucune explication.
Les nouveaux systèmes (IA avec langage) sont bavards, mais ils sont parfois trompeurs.

Le message clé :
Avoir une explication en langage naturel ne rend pas le système plus fiable si cette explication est inventée. Pour la sécurité et la justice, nous avons besoin de systèmes qui ne se contentent pas de "parler", mais qui prouvent ce qu'ils disent en se basant strictement sur ce qu'ils voient, et non sur ce qu'ils imaginent.

En résumé : Ne faites pas confiance à un détective qui vous donne une belle histoire, même si la conclusion est juste. Vérifiez toujours si ses preuves sont réelles !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'article aborde la fiabilité des Modèles de Langage Multimodaux à Grande Échelle (MLLM) lorsqu'ils sont utilisés pour générer des explications textuelles dans le cadre de la reconnaissance faciale (RF). Bien que ces modèles puissent produire des décisions de vérification correctes et des descriptions en langage naturel, leur fiabilité sur des images non contraintes (conditions réelles, poses extrêmes, imagerie de surveillance) reste sous-évaluée.

Le problème central identifié est le décalage entre la justesse de la décision et la fidélité de l'explication. Les auteurs montrent que même lorsque le MLLM prend la bonne décision (ex: "Match"), l'explication textuelle associée repose souvent sur des attributs faciaux hallucinés ou non vérifiables visuellement (ex: décrire des détails de l'oreille ou de la peau qui ne sont pas visibles en raison d'une pose de profil). Cela pose un risque critique pour les applications forensiques et de sécurité où ces explications pourraient être interprétées comme des preuves.

2. Méthodologie

Les auteurs proposent une approche systématique pour évaluer ces explications, combinant une analyse des performances de vérification catégorielle et un nouveau cadre d'évaluation basé sur les probabilités.

A. Cadre d'Évaluation par Rapport de Vraisemblance (Likelihood Ratio - LR)

Pour quantifier la force probante des explications textuelles indépendamment de la justesse de la décision finale, les auteurs introduisent un cadre basé sur le Rapport de Vraisemblance (LR) :

Génération de données : Des paires de visages (vrais/faux) sont soumises à un MLLM (GPT-4o, Gemini-2.5) avec différentes stratégies de prompting pour générer des explications textuelles.
Encodage et Réduction de dimension : Les textes sont encodés en vecteurs fixes via un modèle d'embedding textuel (frozen), puis réduits en dimension via une Analyse en Composantes Principales (PCA) (97% de variance conservée).
Modélisation GMM : Des Modèles de Mélange Gaussien (GMM) sont entraînés séparément pour les distributions des explications "Genuine" (vrais matchs) et "Impostor" (faux matchs) dans l'espace latent réduit.
Calcul du LR : Pour une nouvelle explication, le rapport de vraisemblance $\Lambda(z) = P_0(z) / P_1(z)$ est calculé, où $P_0$ et $P_1$ sont les probabilités sous les hypothèses de match et de non-match. Ce score est normalisé pour comparer la force de l'explication aux scores de similarité traditionnels.

B. Stratégies de Prompting Multi-niveaux

Pour analyser l'impact des informations externes, quatre niveaux de prompts sont testés :

Grounded : Les images + l'étiquette de vérité terrain (Genuine/Impostor) sont fournies (uniquement pour l'entraînement).
No-score : Uniquement les images (évidence visuelle pure).
Score-only : Images + score de similarité d'un système de RF classique.
Score+Decision : Images + score + décision binaire (seuil à 0,01% de FMR).

C. Jeu de Données

Entraînement : Sous-ensemble de BUPT-CBFace (13 200 paires équilibrées).
Test : IJB-S (10 000 paires), un benchmark difficile connu pour ses variations extrêmes de pose et son imagerie de surveillance (Still-to-Still).

3. Résultats Clés

A. Performance de Vérification Catégorielle

Même avec des informations auxiliaires (scores et décisions de systèmes de RF classiques), les MLLM peinent à atteindre la précision des systèmes de RF commerciaux (COTS).
GPT-4o : Sans aide, la précision sur les vrais matchs est faible (69,0%). L'ajout de scores et de décisions améliore la détection des imposteurs (98,6%) mais la précision sur les vrais matchs reste modeste (75,1%), avec beaucoup de cas marqués comme "incertains".
Gemini-2.5-Flash : Performe mieux avec les informations de RF (95,9% sur les vrais matchs), mais commet encore des erreurs.
Système COTS : Atteint 99,69% de précision sur les vrais matchs et 100% de rejet des imposteurs, mais ne fournit aucune explication textuelle.

B. Séparabilité des Explications (Analyse de Cluster)

L'analyse t-SNE et les métriques de séparation (Silhouette, Davies-Bouldin, Fisher Ratio) montrent que les explications pour les vrais matchs et les imposteurs forment des clusters bien séparés uniquement lorsque les étiquettes de vérité terrain sont fournies pendant la génération.
Dans des conditions non contraintes (IJB-S), les clusters se chevauchent considérablement, indiquant que les MLLM produisent des explications incohérentes ou hallucinées, même avec l'aide de scores de RF.
L'utilisation d'un seul score de RF performant (KPRPE) donne de meilleurs résultats de séparation que l'utilisation de scores multiples.

C. Évaluation par Rapport de Vraisemblance (LR)

Le cadre LR révèle que l'amélioration de la précision catégorielle (via l'ajout de scores de RF) ne se traduit pas systématiquement par une amélioration de la fidélité de l'explication.
Les explications générées sans vérité terrain reposent souvent sur des priors linguistiques plutôt que sur des preuves visuelles, ce qui se traduit par des rapports de vraisemblance moins discriminants.

4. Contributions Principales

Évaluation Systématique : Une analyse détaillée des explications textuelles générées par MLLM pour la vérification faciale sous des poses extrêmes, révélant un fossé majeur entre la justesse de la décision et la fidélité de l'explication.
Analyse de l'Information Auxiliaire : Une étude montrant que l'intégration de scores et de décisions de systèmes de RF traditionnels améliore la précision de la décision mais ne garantit pas des explications plus fiables.
Nouveau Cadre d'Évaluation (LR) : Introduction d'un framework basé sur le rapport de vraisemblance pour quantifier la force probante des explications textuelles, indépendamment de la décision de vérification catégorielle.
Insights Empiriques : Identification des conditions où les MLLM basent leurs explications sur des preuves visuelles versus des priors linguistiques, soulignant les limites actuelles pour les applications biométriques critiques.

5. Signification et Conclusion

Ce travail met en lumière une limitation fondamentale des MLLM actuels pour la reconnaissance faciale explicable (XAI) : la capacité à prendre la bonne décision ne signifie pas que le modèle comprend pourquoi cette décision est prise. Dans des contextes forensiques, une explication "plausible" mais hallucinée peut être dangereuse.

Les auteurs concluent que bien que les informations auxiliaires améliorent la précision, elles ne résolvent pas le problème de l'ancrage visuel (visual grounding). Le framework LR proposé offre une méthode rigoureuse pour évaluer la fiabilité des explications au-delà de la simple précision binaire. L'avenir de ce domaine nécessite des modèles capables de lier directement les attributs textuels aux preuves visuelles pour éviter les hallucinations, ainsi que des protocoles d'évaluation standardisés pour les applications biométriques de confiance.