Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations

이 논문은 기존 표현 학습의 식별성 평가 지표가 데이터 생성 과정과 인코더 구조에 대한 특정 가정을 내포하고 있어 이러한 가정이 위반될 경우 체계적인 오류를 초래할 수 있음을 규명하고, 이를 분류하는 체계와 재현 가능한 평가 도구를 제시합니다.

Shruti Joshi, Théo Saulus, Wieland Brendel, Philippe Brouillard, Dhanya Sridhar, Patrik Reizinger

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"감시자를 누가 감시하는가?" : AI 의 '이해'를 측정하는 자의 문제

이 논문은 인공지능 (AI) 이 세상을 어떻게 '이해'하는지, 즉 AI 가 데이터 속에 숨겨진 진짜 원인 (예: 날씨, 자동차 속도, 물체의 모양 등) 을 제대로 찾아냈는지를 측정하는 척도 (메트릭) 들이 얼마나 신뢰할 수 있는지 파헤친 연구입니다.

저자들은 **"우리가 AI 의 능력을 재는 자 (척도) 들이, 사실은 그 자체로 큰 오류를 품고 있을 수 있다"**는 충격적인 사실을 발견했습니다. 마치 "감시자를 누가 감시하는가?"라는 고전적인 질문처럼, AI 의 능력을 측정하는 도구들이 얼마나 정확한지 다시 한번 검증해야 한다는 메시지를 전합니다.


1. 배경: AI 는 어떻게 세상을 이해할까요?

AI 가 사진을 보고 "이건 고양이야"라고 말한다고 칩시다. 하지만 AI 는 단순히 픽셀만 보는 게 아니라, 그 뒤에 숨겨진 '진짜 원인' (예: 귀 모양, 수염, 털 결) 을 추론해내야 진정한 이해를 했다고 볼 수 있습니다.

연구자들은 AI 가 이 '진짜 원인'들을 얼마나 잘 찾아냈는지 확인하기 위해 MCC, R², DCI 같은 다양한 점수 계산 도구들을 사용해 왔습니다. 점수가 100 점에 가까우면 "와, AI 가 원인을 완벽하게 찾아냈네!"라고 생각했습니다.

2. 문제: 자는 자마다 다릅니다 (측정의 함정)

하지만 이 논문은 **"그 점수들이 항상 믿을 수 있는 게 아니다"**라고 말합니다. 마치 다른 나라의 자 (미터, 피트, 인치) 를 섞어서 길이를 재는 것처럼, 사용하는 측정 도구의 종류와 상황에 따라 결과가 완전히 달라질 수 있기 때문입니다.

저자들은 이 문제들을 4 가지 상황으로 나누어 설명합니다.

📌 상황 1: "비슷한 것"을 "완벽한 것"으로 착각하다 (상관관계의 함정)

  • 상황: 비가 오면 땅이 젖습니다. 비와 젖음은 강한 상관관계가 있습니다.
  • 문제: 어떤 AI 는 비와 젖음을 구분하지 못하고 섞어서 표현합니다. 그런데 측정 도구 (특히 MCC) 는 "아, 비와 젖음이 서로 강하게 연결되어 있네? AI 가 잘 찾았구나!"라고 잘못된 점수 (거짓 양성) 를 줍니다.
  • 비유: 비와 젖은 바닥을 구분하지 못하는 AI 가 있는데, 측정 자는 "두 현상이 너무 잘 연결되어 있으니 AI 가 훌륭하다"고 칭찬해버리는 꼴입니다.

📌 상황 2: "불필요한 정보"를 "중요한 정보"로 오해하다 (중복성)

  • 상황: 자동차의 속도와 '속도계 바늘의 위치'는 사실 같은 정보를 가리킵니다. 하나만 알면 나머지는 다 알 수 있습니다.
  • 문제: AI 가 속도만 기억하고 속도계 바늘은 잊어버렸는데, 측정 도구는 "아, 바늘 정보를 잃어버렸으니 AI 가 불완전해!"라고 잘못된 점수 (거짓 음성) 를 줍니다.
  • 비유: 동전 두 개 중 하나를 잃어버렸는데, "아, 동전 하나를 잃었으니 부자가 아니야!"라고 말하는 것과 같습니다. 사실은 남은 동전 하나로도 부자임을 증명할 수 있는데 말이죠.

📌 상황 3: "너무 많은 자"를 가진 경우 (과도한 복잡성)

  • 상황: AI 가 정보를 저장할 때, 원래 10 개의 상자가 필요했는데 100 개의 상자를 만들어서 정보를 분산시켰습니다.
  • 문제: 측정 도구는 "상자가 너무 많아서 정보를 제대로 찾지 못했구나"라고 생각하거나, 반대로 "상자가 많으니 무조건 잘 찾았겠지"라고 착각합니다.
  • 비유: 보물 지도를 100 조각으로 잘게 찢어서 숨겨놨는데, "조각이 많으니까 보물을 찾았을 거야"라고 추측하는 것과 같습니다. 실제로는 조각을 다시 붙여야 보물을 찾을 수 있습니다.

📌 상황 4: "무작위"를 "완벽"으로 착각하다 (데이터 부족)

  • 상황: AI 가 아무것도 모르고 무작위로 숫자를 내뱉는데, 데이터 양이 너무 적고 AI 의 크기가 너무 큽니다.
  • 문제: 우연히 AI 의 무작위 숫자가 진짜 원인과 비슷해 보일 확률이 생깁니다. 측정 도구는 이를 보고 "AI 가 정말 잘 찾았네!"라고 거짓 점수를 줍니다.
  • 비유: 주사위를 10 번만 던져서 "6 이 계속 나오네? 이 주사위는 조작된 게 틀림없어!"라고 결론 내리는 것과 같습니다. 실제로는 운일 뿐인데, 데이터가 부족해서 착각한 것입니다.

3. 해결책: "어떤 자를 쓸 것인가?"

이 논문은 단순히 "측정 도구가 나쁘다"고 비판하는 것을 넘어, 어떤 상황에서 어떤 도구를 써야 하는지에 대한 사용자 매뉴얼을 제시합니다.

  • 데이터가 상관관계가 강할 때: MCC 같은 도구는 쓰지 마세요. 대신 같은 도구를 쓰세요.
  • 데이터가 중복될 때: 어떤 정보를 잃어버려도 괜찮은지 (무손실 압축인지) 판단할 수 있는 도구를 써야 합니다.
  • 데이터 양이 적을 때: AI 의 크기가 데이터보다 크다면, 무조건 점수가 낮게 나올 수 있으니 무작위 AI(Null Encoder) 를 함께 테스트해봐야 합니다.

4. 결론: "감시자를 감시하라"

이 연구의 핵심 메시지는 **"어떤 측정 점수가 100 점이라고 해서 무조건 AI 가 훌륭하다고 믿지 마라"**는 것입니다.

점수는 측정 도구 (자) 의 설계와 데이터의 특성에 따라 달라집니다. 따라서 AI 연구자들은 점수 하나만 보고 결론을 내리기보다, **"내 데이터와 AI 구조에 이 측정 도구가 적합한가?"**를 먼저 따져봐야 합니다.

한 줄 요약:

"AI 의 능력을 측정하는 자 (척도) 들도 오류가 있을 수 있으니, 그 자들이 얼마나 정확한지 다시 한번 검증하고, 상황에 맞는 자를 선택해야 진짜 AI 의 실력을 알 수 있다."

이 논문은 AI 개발자들이 "점수만 높으면 된다"는 맹목적인 태도를 버리고, 더 신중하고 비판적으로 AI 의 '이해' 능력을 평가하도록 독려합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →