MLLM-based Textual Explanations for Face Comparison

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 상황: AI 수사관 (MLLM) 의 등장

과거에는 얼굴 인식 AI 가 "이 두 사람은 같은 사람입니다"라고 숫자 점수만 알려주었습니다. 하지만 최근에는 **거대 언어 모델 (MLLM)**이라는 새로운 AI 가 등장했습니다. 이 AI 는 단순히 "맞다/틀리다"만 말하는 게 아니라, **"이 사람은 코 모양이 비슷하고, 눈썹이 닮았어요"**라고 사람처럼 자연스러운 말로 설명을 해줍니다.

이건 마치 현장 감식관이 수사관에게 "이 두 범인의 발자국 크기가 똑같아요"라고 설명해 주는 것과 비슷합니다. 사람들은 이 설명을 듣고 "아, 그렇구나!"라고 이해하고 싶어 합니다.

⚠️ 2. 문제점: "잘못된 설명"과 "망상 (Hallucination)"

하지만 연구진은 이 AI 설명을 믿으면 안 된다는 사실을 발견했습니다.

상황: 두 사진이 정말 같은 사람인데, 한 장은 정면이고 다른 한 장은 옆모습 (극단적인 각도) 입니다.
AI 의 반응: AI 는 "맞습니다 (Same person)"라고 정답을 맞췄습니다.
하지만 설명은? AI 는 **"두 사진 모두 귀 모양이 똑같고, 이마가 넓습니다"**라고 설명합니다.
현실: 옆모습 사진에서는 귀나 이마가 보이지도 않는데, AI 가 마치 본 것처럼 설명한 것입니다.

이를 **"망상 (Hallucination)"**이라고 합니다. 마치 눈을 가린 채 그림을 보고 "이 그림은 빨간 사과입니다"라고 말하면서, 사실은 사과가 아니라 파란 배를 보고 있는 상황과 같습니다. AI 는 정답을 맞췄지만, 그 이유 (설명) 는 완전히 엉뚱하거나 증명할 수 없는 거짓말을 하고 있는 것입니다.

🛠️ 3. 시도: 기존 AI 의 도움을 받으면?

연구진은 "그럼 기존에 얼굴 인식에 아주 뛰어난 AI(전문가) 가 점수를 알려주면 설명이 나아질까?"라고 생각했습니다.

방법: "이 두 사진은 전문가 AI 가 90% 일치한다고 했어. 이제 너가 왜 일치하는지 설명해 봐."라고 AI 에게 알려주었습니다.
결과:
- 정답률: 전문가의 도움을 받으면 AI 가 "맞다/틀리다"를 구분하는 능력은 조금 좋아졌습니다.
- 설명의 진실성: 하지만 설명 자체는 여전히 믿을 수 없었습니다. 전문가가 점수를 줘도, AI 는 여전히 보이지 않는 부분을 보고 "귀 모양이 비슷해요"라고 거짓말을 계속했습니다.

📊 4. 새로운 평가 도구: "신뢰도 점수계" (Likelihood Ratio)

그렇다면 어떻게 이 AI 의 설명이 진짜인지, 가짜인지 판별할 수 있을까요? 연구진은 **새로운 점수계 (Likelihood Ratio Framework)**를 만들었습니다.

비유: 이 점수계는 AI 가 쓴 설명을 문서 감정하는 것과 같습니다.
- "진짜 같은 사람"에 대한 설명들은 보통 어떤 패턴 (예: 구체적인 얼굴 특징) 을 따릅니다.
- "가짜"나 "망상"에 대한 설명들은 또 다른 패턴을 보입니다.
이 점수계는 AI 가 정답을 맞췄는지 여부와 상관없이, **"이 설명이 얼마나 증거로서 가치가 있는가?"**를 숫자로 측정합니다.
결론: 이 점수계로 측정한 결과, 대부분의 AI 설명은 시각적 증거 없이 언어적 패턴만 따라 쓴 '가짜 설명'인 경우가 많았습니다.

💡 5. 핵심 교훈 (결론)

이 논문의 결론은 매우 중요합니다.

"AI 가 정답을 맞췄다고 해서, 그 이유가 진짜인 것은 아닙니다."

현재의 한계: 얼굴 인식 AI 는 정답을 맞출 수는 있어도, 그 이유를 시각적 근거에 기반해 설명하는 것은 여전히 어렵습니다. 특히 사진이 흐리거나 각도가 이상할 때는 더욱 그렇습니다.
위험성: 만약 이 AI 설명을 법정이나 보안 현장에서 '증거'로 쓰면, 보이지 않는 것을 본 것처럼 거짓 증언을 하는 꼴이 되어 큰 문제가 될 수 있습니다.
미래: 우리는 AI 가 "왜"라고 말할 때, 그 말이 사진 속 사실과 일치하는지 검증할 수 있는 새로운 기준이 필요합니다.

🎯 한 줄 요약

"AI 가 얼굴을 맞췄다고 기뻐하기 전에, 그 AI 가 쓴 '이유'가 진짜 사진 속 사실인지, 아니면 그냥 상상한 이야기인지 먼저 확인해야 합니다."

이 연구는 우리가 AI 의 말 (설명) 을 맹신하기보다, 그 설명이 얼마나 신뢰할 수 있는지 과학적으로 검증하는 도구를 개발해야 한다고 경고하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 최근 다중 모달 대형 언어 모델 (MLLM) 은 얼굴 인식 (Face Recognition, FR) 결정에 대한 자연어 설명을 생성하는 데 활용되고 있습니다. 이는 인간의 해석 가능성을 높여 '설명 가능한 AI (XAI)'의 한 방법으로 주목받습니다.
문제점: 그러나 제한되지 않은 환경 (unconstrained conditions, 예: 극단적인 자세 변화, 감시 영상) 에서 MLLM 이 생성한 설명의 신뢰성은 충분히 연구되지 않았습니다.
- 할루시네이션 (Hallucination): MLLM 은 시각적 증거가 없어도 언어적 선입견 (linguistic priors) 에 의존하여 검증 불가능하거나 사실과 다른 얼굴 특징을 설명하는 경우가 많습니다.
- 결정 정확도 vs 설명 충실도 불일치: MLLM 이 얼굴 매칭 (Verification) 결정을 정확히 내리더라도, 그 근거가 되는 텍스트 설명은 부정확하거나 오해의 소지가 있을 수 있습니다.
- 보조 정보의 한계: 기존 얼굴 인식 시스템의 점수 (scores) 나 결정 (decisions) 을 MLLM 에 입력으로 제공하면 분류 성능은 향상되지만, 이것이 설명의 신뢰성 (faithfulness) 을 보장하지는 않습니다.

2. 제안된 방법론 (Methodology)

저자들은 MLLM 이 생성한 텍스트 설명의 증거적 강도 (evidential strength) 를 정량화하기 위해 우도비 (Likelihood Ratio, LR) 기반 프레임워크를 도입하고, 다양한 프롬프트 전략을 통해 설명의 신뢰성을 분석했습니다.

A. 우도비 (LR) 기반 평가 프레임워크

이 프레임워크는 결정의 정확성과 무관하게 텍스트 설명 자체의 신뢰성을 측정합니다.

데이터 생성 및 임베딩:
- 진실 (Genuine) 과 위조 (Impostor) 쌍에 대해 MLLM 이 생성한 텍스트 설명을 수집합니다.
- 고정된 텍스트 임베딩 모델 (text-embedding-3-small) 을 사용하여 텍스트를 벡터로 변환하고, PCA 를 통해 차원을 축소합니다.
가우시안 혼합 모델 (GMM) 학습:
- 축소된 임베딩 공간에서 진실 쌍과 위조 쌍의 설명 분포를 각각 GMM 으로 모델링합니다.
- $P_0(z)$ (진실 가설) 과 $P_1(z)$ (위조 가설) 의 확률 밀도 함수를 학습합니다.
평가 (Testing):
- 테스트 시 생성된 설명의 임베딩 $z$ 에 대해 우도비 $\Lambda(z) = P_0(z) / P_1(z)$ 를 계산합니다.
- 이 값을 정규화된 매칭 점수 ( $S_{expl}$ ) 로 변환하여 기존 얼굴 인식 유사도 점수와 비교 가능한 지표로 만듭니다.
- 핵심: 이 방법은 설명이 시각적 근거에 기반했는지 직접 검증하는 것이 아니라, 설명의 의미적 일관성이 진실/위조 분포와 얼마나 잘 일치하는지를 측정하는 대리 지표 (proxy measure) 입니다.

B. 다단계 프롬프팅 전략 (Multi-level Prompting)

설명 신뢰성을 분석하기 위해 MLLM 에 제공하는 정보를 단계별로 변화시켰습니다.

Grounded Prompting: 정답 레이블 (진실/위조) 을 포함 (학습 데이터 생성용).
No-score Prompting: 이미지 쌍만 제공 (순수 시각적 근거).
Score-only Prompting: 이미지 + 얼굴 인식 유사도 점수 제공.
Score+Decision Prompting: 이미지 + 점수 + 임계값 기반 이진 결정 제공.

3. 실험 설정 (Dataset & Setup)

데이터셋:
- 학습: BUPT-CBFace 데이터셋 (13,200 쌍).
- 테스트: IJB-S (Still-to-Still) 데이터셋 (10,000 쌍). 이는 극단적인 자세 변화와 감시 환경을 포함하는 까다로운 벤치마크입니다.
모델: GPT-4o, Gemini-2.5-Flash 등 최신 MLLM 과 ArcFace, KPRPE 등 다양한 얼굴 인식 모델의 출력을 활용.
비교 대상: 상업용 오프더셸 (COTS) 얼굴 인식 시스템 (설명 기능 없음, 높은 정확도).

4. 주요 결과 (Key Results)

A. 범주형 검증 성능 (Categorical Verification)

MLLM 의 한계: 정답 레이블을 제공받더라도 GPT-4o 는 극단적인 자세 변화로 인해 진실 쌍을 '불확실 (uncertain)'로 잘못 분류하는 경우가 많았습니다.
보조 정보의 효과: 얼굴 인식 시스템의 점수와 결정 정보를 추가하면 위조 (Impostor) 탐지율은 크게 향상되었으나 (예: 76.9% → 98.6%), 진실 쌍의 정확도는 여전히 낮게 유지되었습니다 (약 75%).
상업적 시스템 대비: COTS 시스템은 99.69% 의 높은 정확도를 보였으나, 텍스트 설명을 제공하지 않아 투명성이 결여되었습니다.

B. 텍스트 설명의 분리 가능성 (Separability)

클러스터 분석: t-SNE 시각화 및 실루엣 계수 (Silhouette), Davies-Bouldin 지수 등을 통해 분석한 결과, 얼굴 인식 점수를 프롬프트에 포함할수록 진실/위조 설명의 임베딩 공간 분리가 개선되었습니다.
모델 간 비교: 여러 모델의 점수를 모두 입력하는 것보다, 성능이 우수한 단일 모델 (KPRPE) 의 점수를 사용하는 것이 더 나은 분리를 보였습니다.

C. 우도비 (LR) 평가 결과

설명의 증거력: 점수와 결정 정보를 모두 포함한 프롬프트 (Score+Decision) 가 설명의 우도비 기반 평가에서 가장 좋은 성능을 보였습니다.
핵심 발견: 결정 정확도가 높아져도 설명의 신뢰성 (Faithfulness) 이 반드시 향상되지는 않습니다. MLLM 이 올바른 매칭 결정을 내렸더라도, 그 근거로 제시된 텍스트는 여전히 시각적 증거와 동떨어진 할루시네이션을 포함할 가능성이 높습니다.

5. 주요 기여 (Contributions)

체계적 평가: 극단적인 자세 변화가 있는 IJB-S 데이터셋에서 MLLM 기반 얼굴 검증 설명의 정확성과 설명 충실도 간의 격차를 체계적으로 분석했습니다.
보조 정보 영향 분석: 기존 얼굴 인식 시스템의 정보 (점수, 결정) 가 MLLM 의 성능과 설명 신뢰성에 미치는 영향을 규명했습니다.
새로운 평가 프레임워크: 범주형 정확도를 넘어 텍스트 설명의 증거적 강도를 정량화하는 우도비 (LR) 기반 프레임워크를 제안했습니다.
실증적 통찰: MLLM 이 시각적 근거에 기반한 설명을 생성하는 경우와 언어적 선입견에 의존하는 경우를 구분하는 실증적 인사이트를 제공했습니다.

6. 의의 및 결론 (Significance & Conclusion)

법적/보안적 중요성: 법의학 및 보안 분야에서 자연어 설명이 증거로 활용될 수 있다는 점을 고려할 때, 설명의 신뢰성 부재는 치명적입니다. 이 연구는 현재 MLLM 기반 설명이 이러한 고신뢰도 환경에 적용되기에는 한계가 있음을 경고합니다.
트레이드오프: 높은 정확도 (COTS) 와 높은 투명성 (MLLM 설명) 사이에는 근본적인 트레이드오프가 존재하며, 단순히 보조 정보를 추가하는 것만으로는 해결되지 않습니다.
미래 방향: 텍스트 속성을 시각적 증거와 직접 연결하는 방법론의 개발이 필요하며, 제안된 LR 프레임워크는 모델과 무관하게 적용 가능한 평가 도구로서 향후 신뢰할 수 있는 생체 인식 설명 시스템 개발의 기초를 제공합니다.

이 논문은 MLLM 이 생성한 설명이 단순히 "매우 그럴듯해 보일 뿐"일 수 있음을 지적하며, 생체 인식 분야에서 설명 가능한 AI 를 구축할 때 결정 정확도와 설명의 사실성 (Grounding) 을 분리하여 평가해야 함을 강조합니다.