MLLM-based Textual Explanations for Face Comparison

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un detective che deve decidere se due foto appartengono alla stessa persona. Fino a poco tempo fa, usavamo solo "occhi robotici" (algoritmi di riconoscimento facciale) molto precisi, ma che non sapevano spiegare perché avevano preso quella decisione. Erano come un mago che indovina il numero che hai in mente, ma non ti dice come l'ha fatto.

Ora, sono arrivati i Modelli Linguistici Multimodali (MLLM), ovvero intelligenze artificiali super-intelligenti che possono "vedere" le foto e "parlare" come noi. L'idea era fantastica: invece di un semplice "Sì" o "No", l'AI ci avrebbe dato una spiegazione in linguaggio naturale, tipo: "Sì, sono la stessa persona perché hanno lo stesso naso e la stessa forma degli occhi".

Questo articolo di ricerca, scritto da studiosi dell'Università del Michigan, ha messo alla prova questi nuovi "detective parlanti" per vedere se sono davvero affidabili, specialmente in situazioni difficili (come foto di sorveglianza o persone di profilo).

Ecco i punti chiave, spiegati con delle metafore:

1. Il Detective che "Inventa" le Prove

Il problema principale scoperto dagli autori è che questi detective parlanti sono molto bravi a inventare storie, anche quando la loro conclusione è giusta.

L'analogia: Immagina un bambino che indovina che il tuo amico è tornato a casa perché "ha i capelli biondi e porta le scarpe rosse". La conclusione è giusta (è tornato), ma la spiegazione è falsa: il tuo amico ha i capelli neri e scarpe blu. Il bambino ha "allucinato" i dettagli.
La scoperta: Anche quando l'AI dice correttamente "Sì, sono la stessa persona", la sua spiegazione spesso descrive dettagli che non esistono nella foto (come un orecchio specifico o un'espressione) o inventa caratteristiche che non si possono verificare. È come se l'AI dicesse: "Ho vinto perché ho un superpotere", quando in realtà ha solo avuto fortuna.

2. L'Assistente che ti sussurra le risposte

Gli scienziati hanno provato a dare all'AI un "aiuto": le hanno fornito i risultati di vecchi sistemi di riconoscimento facciale (un punteggio di somiglianza o una decisione binaria).

L'analogia: È come se al detective parlante dessimo un foglietto con scritto "Secondo il computer vecchio, questi due sono il 90% simili".
Il risultato: Questo aiuta l'AI a prendere la decisione corretta più spesso (diventa un detective più bravo a indovinare il "Sì/No"), ma non lo rende più onesto nelle spiegazioni. Continua a inventare dettagli visivi per giustificare la risposta che gli è stata suggerita. È come se l'AI dicesse: "Ok, il foglietto dice che sono simili, quindi inventerò una spiegazione convincente su come si assomigliano", anche se visivamente non è vero.

3. Il "Termometro della Verità" (Likelihood Ratio)

Poiché è difficile capire se una spiegazione è vera o falsa solo leggendola, gli autori hanno creato un nuovo strumento di misura, chiamato Likelihood Ratio (Rapporto di Verosimiglianza).

L'analogia: Immagina di avere un "termometro della verità". Invece di chiedere all'AI "Sei sicuro?", questo termometro analizza come l'AI ha scritto la spiegazione. Se la spiegazione assomiglia molto a quelle che l'AI scrive quando vede persone diverse (impostori), il termometro segna "Basso". Se assomiglia a quelle che scrive per persone vere, segna "Alto".
A cosa serve: Questo strumento misura la forza delle prove fornite dal testo, indipendentemente dal fatto che la risposta finale sia giusta o sbagliata. Ci dice: "Questa spiegazione è coerente con la realtà visiva o è solo una chiacchiera?".

4. Il Dilemma: Precisione vs. Trasparenza

Il paper evidenzia un paradosso importante:

I sistemi tradizionali (quelli "muti") sono quasi perfetti nel dire chi è chi, ma non spiegano nulla.
I nuovi sistemi "parlanti" (MLLM) sono molto meno precisi nel dire chi è chi e, quando spiegano, spesso mentono o inventano.
La lezione: Aggiungere informazioni tecniche aiuta l'AI a indovinare meglio, ma non risolve il problema della "fiducia". Se usiamo queste AI in contesti legali o di sicurezza (come le indagini forensi), non possiamo fidarci ciecamente delle loro parole, perché potrebbero essere solo "allucinazioni linguistiche" ben scritte.

In sintesi

Questo studio ci avverte: Non fidarti ciecamente di ciò che dice l'AI, anche se sembra molto intelligente.
Se un'AI ti dice "Queste due foto sono della stessa persona perché hanno lo stesso sorriso", controlla se il sorriso c'è davvero. Spesso l'AI sta solo cercando di sembrare convincente, non di essere vera. Gli autori hanno creato un nuovo modo per misurare quanto una spiegazione sia "solida", ma ci dicono che c'è ancora molta strada da fare prima di poter usare queste macchine come testimoni affidabili in tribunale o nelle indagini di sicurezza.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il riconoscimento facciale (FR) ha raggiunto livelli di accuratezza elevati grazie alle reti neurali profonde, specialmente su immagini "in-the-wild" (non controllate). Tuttavia, i sistemi tradizionali sono spesso "scatole nere" che forniscono solo un punteggio di similarità o una decisione binaria, senza spiegare il perché di tale decisione.

Recentemente, i Modelli Linguistici Multimodali (MLLM) sono stati proposti per generare spiegazioni in linguaggio naturale per le decisioni di riconoscimento facciale, promettendo di migliorare l'interpretabilità umana. Il problema centrale affrontato in questo lavoro è l'affidabilità di queste spiegazioni. Gli autori evidenziano che, anche quando un MLLM prende la decisione di verifica corretta (es. "Match"), le spiegazioni testuali associate spesso:

Si basano su priors linguistici piuttosto che su evidenze visive reali.
Contengono allucinazioni (attributi facciali non supportati visivamente).
Sono non verificabili, specialmente in scenari difficili come immagini di sorveglianza o con variazioni estreme di posa.

Questo crea un rischio critico in applicazioni forensi e di sicurezza, dove una spiegazione errata potrebbe essere interpretata come prova ingannevole.

2. Metodologia

Gli autori hanno analizzato sistematicamente le spiegazioni generate dagli MLLM sul dataset IJB-S (Still-to-Still), noto per le sue sfide legate a pose estreme e condizioni di illuminazione variabili.

A. Framework di Valutazione basato sul Likelihood Ratio (LR)

Per valutare la forza probatoria delle spiegazioni testuali indipendentemente dalla correttezza della decisione finale, è stato introdotto un nuovo framework basato sul Likelihood Ratio (LR):

Generazione del Testo: Gli MLLM (GPT-4o e Gemini-2.5) generano spiegazioni per coppie di volti (genuine o impostori).
Embedding e Riduzione Dimensionale: Le spiegazioni testuali vengono codificate in vettori fissi utilizzando un modello di embedding testuale (text-embedding-3-small) e successivamente ridotte tramite PCA (Analisi delle Componenti Principali) per mantenere il 97% della varianza.
Modellazione GMM: Vengono appresi due Gaussian Mixture Models (GMM) distinti nello spazio degli embedding ridotti: uno per le spiegazioni delle coppie genuine ( $H_0$ ) e uno per le coppie impostori ( $H_1$ ).
Calcolo del LR: Durante il test, una nuova spiegazione viene codificata e proiettata nello spazio latente. Il rapporto di verosimiglianza $\Lambda(z) = P_0(z) / P_1(z)$ viene calcolato per quantificare quanto la spiegazione supporti l'ipotesi di "genuinità" rispetto a quella di "impostore". Questo valore viene mappato in un punteggio normalizzato ( $S_{expl}$ ) confrontabile con i punteggi di similarità dei sistemi FR classici.

B. Strategia di Prompting Multi-Livello

Per studiare come le informazioni ausiliarie influenzino le spiegazioni, sono stati testati diversi livelli di prompting:

Grounded: Fornita l'etichetta vera (genuino/impostore) insieme alle immagini.
No-score: Solo le immagini (evidenza visiva pura).
Score-only: Immagini + punteggio di similarità da un sistema FR.
Score+Decision: Immagini + punteggio + decisione binaria (Match/Non-Match) di un sistema FR.

3. Risultati Chiave

L'analisi è stata condotta su GPT-4o e Gemini-2.5 confrontandoli con un sistema FR commerciale (COTS).

Divario tra Decisione e Spiegazione: Anche quando gli MLLM producono la decisione di verifica corretta, le spiegazioni sono spesso inaffidabili. Ad esempio, GPT-4o commette errori significativi su coppie genuine con pose estreme, etichettandole come "incerte".
Impatto delle Informazioni FR:
- Fornire punteggi e decisioni da sistemi FR tradizionali migliora notevolmente l'accuratezza della verifica categorica (es. la precisione sugli impostori sale dal 76.9% al 98.6% per GPT-4o con score+decision).
- Tuttavia, non garantisce spiegazioni fedeli. Le spiegazioni continuano a contenere attributi non verificabili o allucinazioni, anche quando la decisione è corretta.
Separabilità dei Cluster: L'analisi t-SNE e le metriche di clustering (Silhouette, Davies-Bouldin, Fisher Ratio) mostrano che l'inclusione di punteggi FR migliora la separazione tra le spiegazioni di coppie genuine e impostori nello spazio degli embedding. Tuttavia, l'uso di un singolo modello FR ad alte prestazioni (KPRPE) funziona meglio dell'aggregazione di più modelli, che introduce variabilità.
Confronto con COTS: I sistemi FR commerciali raggiungono un'accuratezza quasi perfetta (99.69% su genuini, 100% su impostori) ma non offrono spiegazioni testuali, evidenziando il trade-off tra accuratezza e trasparenza.
Limiti dell'LR: Sebbene il framework LR quantifichi la coerenza evidenziale delle spiegazioni, gli autori notano che la separabilità nello spazio degli embedding non valida direttamente l'ancoraggio visivo (visual grounding); spiegazioni linguisticamente coerenti possono comunque contenere allucinazioni.

4. Contributi Principali

Valutazione Sistematica: Analisi dettagliata delle spiegazioni testuali MLLM per la verifica facciale in condizioni estreme, rivelando un gap tra correttezza decisionale e fedeltà della spiegazione.
Analisi delle Informazioni Ausiliarie: Studio dell'impatto di score e decisioni dei sistemi FR tradizionali sulla performance e sulla qualità delle spiegazioni degli MLLM.
Nuovo Framework di Valutazione: Introduzione di un metodo basato sul Likelihood Ratio per misurare la forza probatoria delle spiegazioni testuali, andando oltre la semplice accuratezza categorica.
Insight Empirici: Identificazione delle condizioni in cui gli MLLM producono spiegazioni visivamente fondate rispetto a quelle basate su priors linguistici.

5. Significato e Conclusioni

Il lavoro sottolinea che l'uso di MLLM per l'AI spiegabile (XAI) nel riconoscimento facciale presenta limitazioni fondamentali. La semplice aggiunta di informazioni da sistemi FR classici migliora la decisione finale ma non risolve il problema dell'allineamento tra ragionamento testuale ed evidenza visiva.

In contesti critici come la sicurezza e la forense, dove le spiegazioni possono essere usate come prove, la fiducia cieca negli MLLM è pericolosa. Il framework LR proposto offre un modo principiato per valutare l'affidabilità delle spiegazioni, ma gli autori avvertono che la vera sfida futura risiede nel collegare direttamente gli attributi testuali all'evidenza visiva per evitare allucinazioni. Il codice è stato reso disponibile pubblicamente per favorire ulteriori ricerche in questo settore.

MLLM-based Textual Explanations for Face Comparison

1. Il Detective che "Inventa" le Prove

2. L'Assistente che ti sussurra le risposte

3. Il "Termometro della Verità" (Likelihood Ratio)

4. Il Dilemma: Precisione vs. Trasparenza

In sintesi

1. Il Problema

2. Metodologia

A. Framework di Valutazione basato sul Likelihood Ratio (LR)

B. Strategia di Prompting Multi-Livello

3. Risultati Chiave

4. Contributi Principali

5. Significato e Conclusioni

Articoli simili

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents