MLLM-based Textual Explanations for Face Comparison

이 논문은 제한 없는 얼굴 이미지에서 다중 모달 대형 언어 모델 (MLLM) 이 생성한 설명이 종종 시각적 증거 없이 환각된 속성에 의존한다는 점을 지적하며, 기존 얼굴 인식 시스템의 정보를 추가해도 설명의 신뢰성이 보장되지 않는다는 사실을 규명하고 설명의 증거력을 평가하기 위한 새로운 프레임워크를 제안합니다.

Redwan Sony, Anil K Jain, Ross Arun

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 상황: AI 수사관 (MLLM) 의 등장

과거에는 얼굴 인식 AI 가 "이 두 사람은 같은 사람입니다"라고 숫자 점수만 알려주었습니다. 하지만 최근에는 **거대 언어 모델 (MLLM)**이라는 새로운 AI 가 등장했습니다. 이 AI 는 단순히 "맞다/틀리다"만 말하는 게 아니라, **"이 사람은 코 모양이 비슷하고, 눈썹이 닮았어요"**라고 사람처럼 자연스러운 말로 설명을 해줍니다.

이건 마치 현장 감식관이 수사관에게 "이 두 범인의 발자국 크기가 똑같아요"라고 설명해 주는 것과 비슷합니다. 사람들은 이 설명을 듣고 "아, 그렇구나!"라고 이해하고 싶어 합니다.

⚠️ 2. 문제점: "잘못된 설명"과 "망상 (Hallucination)"

하지만 연구진은 이 AI 설명을 믿으면 안 된다는 사실을 발견했습니다.

  • 상황: 두 사진이 정말 같은 사람인데, 한 장은 정면이고 다른 한 장은 옆모습 (극단적인 각도) 입니다.
  • AI 의 반응: AI 는 "맞습니다 (Same person)"라고 정답을 맞췄습니다.
  • 하지만 설명은? AI 는 **"두 사진 모두 귀 모양이 똑같고, 이마가 넓습니다"**라고 설명합니다.
  • 현실: 옆모습 사진에서는 귀나 이마가 보이지도 않는데, AI 가 마치 본 것처럼 설명한 것입니다.

이를 **"망상 (Hallucination)"**이라고 합니다. 마치 눈을 가린 채 그림을 보고 "이 그림은 빨간 사과입니다"라고 말하면서, 사실은 사과가 아니라 파란 배를 보고 있는 상황과 같습니다. AI 는 정답을 맞췄지만, 그 이유 (설명) 는 완전히 엉뚱하거나 증명할 수 없는 거짓말을 하고 있는 것입니다.

🛠️ 3. 시도: 기존 AI 의 도움을 받으면?

연구진은 "그럼 기존에 얼굴 인식에 아주 뛰어난 AI(전문가) 가 점수를 알려주면 설명이 나아질까?"라고 생각했습니다.

  • 방법: "이 두 사진은 전문가 AI 가 90% 일치한다고 했어. 이제 너가 왜 일치하는지 설명해 봐."라고 AI 에게 알려주었습니다.
  • 결과:
    • 정답률: 전문가의 도움을 받으면 AI 가 "맞다/틀리다"를 구분하는 능력은 조금 좋아졌습니다.
    • 설명의 진실성: 하지만 설명 자체는 여전히 믿을 수 없었습니다. 전문가가 점수를 줘도, AI 는 여전히 보이지 않는 부분을 보고 "귀 모양이 비슷해요"라고 거짓말을 계속했습니다.

📊 4. 새로운 평가 도구: "신뢰도 점수계" (Likelihood Ratio)

그렇다면 어떻게 이 AI 의 설명이 진짜인지, 가짜인지 판별할 수 있을까요? 연구진은 **새로운 점수계 (Likelihood Ratio Framework)**를 만들었습니다.

  • 비유: 이 점수계는 AI 가 쓴 설명을 문서 감정하는 것과 같습니다.
    • "진짜 같은 사람"에 대한 설명들은 보통 어떤 패턴 (예: 구체적인 얼굴 특징) 을 따릅니다.
    • "가짜"나 "망상"에 대한 설명들은 또 다른 패턴을 보입니다.
  • 이 점수계는 AI 가 정답을 맞췄는지 여부와 상관없이, **"이 설명이 얼마나 증거로서 가치가 있는가?"**를 숫자로 측정합니다.
  • 결론: 이 점수계로 측정한 결과, 대부분의 AI 설명은 시각적 증거 없이 언어적 패턴만 따라 쓴 '가짜 설명'인 경우가 많았습니다.

💡 5. 핵심 교훈 (결론)

이 논문의 결론은 매우 중요합니다.

"AI 가 정답을 맞췄다고 해서, 그 이유가 진짜인 것은 아닙니다."

  • 현재의 한계: 얼굴 인식 AI 는 정답을 맞출 수는 있어도, 그 이유를 시각적 근거에 기반해 설명하는 것은 여전히 어렵습니다. 특히 사진이 흐리거나 각도가 이상할 때는 더욱 그렇습니다.
  • 위험성: 만약 이 AI 설명을 법정이나 보안 현장에서 '증거'로 쓰면, 보이지 않는 것을 본 것처럼 거짓 증언을 하는 꼴이 되어 큰 문제가 될 수 있습니다.
  • 미래: 우리는 AI 가 "왜"라고 말할 때, 그 말이 사진 속 사실과 일치하는지 검증할 수 있는 새로운 기준이 필요합니다.

🎯 한 줄 요약

"AI 가 얼굴을 맞췄다고 기뻐하기 전에, 그 AI 가 쓴 '이유'가 진짜 사진 속 사실인지, 아니면 그냥 상상한 이야기인지 먼저 확인해야 합니다."

이 연구는 우리가 AI 의 말 (설명) 을 맹신하기보다, 그 설명이 얼마나 신뢰할 수 있는지 과학적으로 검증하는 도구를 개발해야 한다고 경고하고 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →