Do Metrics for Counterfactual Explanations Align with User Perception?

이 논문은 반사실적 설명을 평가하는 기존 알고리즘 지표들이 사용자의 실제 인식과 약한 상관관계만 보이며 데이터셋에 크게 의존한다는 실증적 연구를 통해, 현재 널리 쓰이는 평가 지표가 인간 중심의 설명 품질을 제대로 반영하지 못함을 지적하고 더 인간 중심적인 평가 접근법의 필요성을 강조합니다.

Felix Liedeker, Basil Ell, Philipp Cimiano, Christoph Düsing

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 내게 해주는 설명이, 실제로 우리가 느끼는 '좋은 설명'과 일치할까?"**라는 아주 중요한 질문을 던집니다.

연구팀이 발견한 결론은 다소 충격적이지만 명확합니다. "지금까지 AI 연구자들이 설명의 질을 평가하기 위해 써온 '자동화된 점수표'들은, 실제 사람의 느낌과는 거의 연관이 없었습니다."

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.


🍔 비유: "요리사의 점수표 vs 손님의 입맛"

상상해 보세요. 한 유명 레스토랑에 새로운 요리사 (AI) 가 왔습니다. 이 요리사는 손님에게 "이 요리를 더 맛있게 만들려면 재료를 조금 바꿔보세요"라고 제안합니다. 이것이 바로 **반대적 설명 (Counterfactual Explanation)**입니다.

지금까지 이 레스토랑의 평가 시스템은 다음과 같이 작동했습니다:

  • 자동 점수표 (기존 연구): "재료를 몇 개나 바꿨나?", "원래 재료와 얼마나 비슷했나?", "요리사끼리 의견이 일치했나?" 등을 계산해서 점수를 매겼습니다.
  • 문제점: 이 점수표가 높다고 해서, 실제 손님들이 "와, 이 설명 정말 잘 들었어! 내 입맛에 딱 맞네!"라고 생각할까요?

이 논문은 **"자동 점수표가 높은 요리가, 실제로 손님의 입맛 (사용자 인식) 을 만족시킬까?"**를 실험으로 증명해 보았습니다.

🔍 실험 과정: 3 가지 다른 메뉴판 (데이터셋)

연구팀은 세 가지 다른 상황 (버섯 식별, 비만도 판단, 심장병 진단) 을 준비하고, AI 가 제안한 '만약에 (Counterfactual)' 설명들을 만들어냈습니다.
그리고 일반인 167 명을 불러와서 이 설명들을 평가하게 했습니다.

  • "이해하기 쉬웠나요?"
  • "믿을 수 있었나요?"
  • "만족스러웠나요?"

그리고 이 사람들의 평가 점수와, 컴퓨터가 계산한 '자동 점수표'를 비교해 봤습니다.

📉 발견된 충격적인 사실

결과물은 다음과 같았습니다:

  1. 점수표와 입맛은 전혀 다른 언어를 씁니다.

    • 컴퓨터가 "이 설명은 완벽해! 점수 100 점!"이라고 외쳐도, 사람들은 "아니, 이거 너무 복잡해. 이해가 안 돼"라고 생각했습니다.
    • 반대로 컴퓨터 점수가 낮아도, 사람들은 "오, 이거 직관적이네"라고 좋아하기도 했습니다.
    • 비유: 요리사가 "소금 0.5g 만 추가했으니 점수 100 점이야!"라고 외쳐도, 손님은 "소금 맛이 너무 강해!"라고 불평하는 것과 같습니다.
  2. 상황에 따라 기준이 달라집니다.

    • 어떤 상황 (버섯 데이터) 에서는 "적은 변화"를 원했지만, 다른 상황 (비만 데이터) 에서는 "풍부한 정보"를 원했습니다.
    • 즉, 하나의 점수표로 모든 상황을 판단할 수 없습니다.
  3. 점수를 더 많이 합쳐도 소용없습니다.

    • 연구팀은 "아마도 점수 하나만으로는 부족해서 그런가? 여러 가지 점수를 합쳐보면 어떨까?"라고 생각했습니다.
    • 하지만 7 가지 점수를 모두 합쳐서 예측 모델을 만들어도, 사람의 마음을 예측하는 데는 실패했습니다.
    • 비유: "소금 양, 설탕 양, 기름 양, 온도를 모두 재서 점수를 매겨도, 손님의 '맛있다'라는 감정을 예측할 수 없다면, 그 점수 체계 자체가 잘못된 것입니다."

💡 왜 이런 일이 일어날까요?

지금까지의 자동 평가 지표들은 수학적, 계산적인 기준 (예: 얼마나 적은 변화를 줬는가, 얼마나 데이터에 가까운가) 에만 집중했습니다.

하지만 사람이 설명을 받아들일 때는 심리적, 상황적인 기준 (예: 이게 내 상황에 적용 가능한가, 내가 이해할 수 있는 언어인가) 을 사용합니다. 이 두 가지는 마치 서로 다른 차원에 있는 것들이라, 서로 겹치는 부분이 거의 없는 것입니다.

🚀 결론 및 제언

이 논문의 핵심 메시지는 다음과 같습니다:

"지금 우리가 쓰는 AI 설명 평가 도구들은, 실제 사람의 마음을 대변하지 못합니다. 우리는 더 이상 '컴퓨터가 계산한 점수'에 의존하지 말고, '사람이 어떻게 느끼는지'를 직접 연구하고 그 기준을 세우는 새로운 시대가 필요합니다."

마치 요리 평가를 할 때, 단순히 '칼질 속도'나 '재료 무게'만 재는 게 아니라, 실제 손님이 맛보고 느끼는 감정을 중요하게 여기는 것과 같습니다. 앞으로는 AI 가 설명을 할 때, 사람의 마음을 움직이는 '진짜 좋은 설명'이 무엇인지부터 연구해야 한다는 뜻입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →