Towards Attributions of Input Variables in a Coalition

이 논문은 Shapley 값 기반의 설명 가능 AI 에서 사전 정의된 변수 분할에 의존하던 기존 방법의 한계를 극복하고, AND-OR 상호작용을 분석하여 새로운 분할 지표를 제안함으로써 변수 군집의 속성 할당 신뢰성을 높이는 이론적·실험적 연구를 수행합니다.

Xinhao Zheng, Huiqi Deng, Quanshi Zhang

게시일 2026-02-25
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍕 1. 문제 상황: 피자 조각과 토핑의 함정

생각해 보세요. 여러분이 AI 에게 "이 피자가 왜 맛있다고 판단했나요?"라고 물어봤습니다.
AI 는 보통 피자를 개별 토핑 (페퍼로니, 치즈, 버섯) 단위로 분석합니다.

  • 기존 방식의 문제:
    • AI 는 "페퍼로니 1 조각이 맛에 기여한 점수"와 "치즈 1 조각이 기여한 점수"를 따로 계산합니다.
    • 그런데 만약 여러분이 "페퍼로니와 치즈가 섞인 한 덩어리"를 하나의 단위 ( coalition, 연합) 로 묶어서 점수를 매기라고 하면 어떻게 될까요?
    • 여기서 괴리가 생깁니다. "페퍼로니 + 치즈"를 따로따로 계산한 점수의 합과, "페퍼로니 + 치즈" 덩어리 전체를 한 번에 계산한 점수가 서로 다를 수 있습니다.

이 논문은 바로 이 **"개별 점수의 합"과 "묶음 점수" 사이의 불일치 (갈등)**가 왜 발생하는지, 그리고 어떻게 해결해야 하는지를 수학적으로 증명했습니다.

🔗 2. 핵심 발견: "AND"와 "OR"의 마법

저자들은 AI 가 세상을 보는 방식을 **'AND(그리고)'**와 **'OR(또는)'**이라는 두 가지 마법의 눈으로 설명합니다.

  • AND 상호작용 (동반자 효과):
    • 예: "비가 오고 (raining) + 고양이가 (cats) + 개가 (dogs) + 그리고 (and)..."
    • AI 는 이 네 단어가 모두 함께 있을 때만 "폭우"라는 의미를 파악합니다. 하나라도 빠지면 의미가 사라집니다.
    • 이는 마치 스팀보트 (Steamboat) 의 엔진처럼, 모든 부품이 함께 돌아야 작동하는 경우입니다.
  • OR 상호작용 (대체 효과):
    • 예: "지루한 (boring) + 실망스러운 (disappointing)"
    • AI 는 이 두 단어 중 하나라도 있으면 "나쁜 영화"라고 판단합니다.
    • 이는 마치 비상구처럼, 하나만 열려도 작동하는 경우입니다.

이 논문의 핵심 통찰:
기존의 AI 설명 방법들은 이 'AND'와 'OR'의 복잡한 관계를 무시하고 단순히 점수만 더했습니다. 하지만 어떤 단어들이 'AND'로 묶여 있는지, 혹은 'OR'로 묶여 있는지에 따라 점수 계산 방식이 달라져야 합니다.

🧩 3. 해결책: "올바른 묶음" 찾기

이 논문은 다음과 같은 새로운 방법을 제안합니다.

  1. 갈등의 원인 규명:

    • 왜 '묶음 점수'와 '개별 점수 합'이 다를까요?
    • 이유: AI 가 어떤 단어들을 묶어서 생각할 때, 그 묶음의 일부만 포함하는 다른 'AND'나 'OR' 패턴이 섞여 있기 때문입니다.
    • 비유: "페퍼로니와 치즈"를 묶었는데, AI 는 사실 "페퍼로니 + 치즈 + 올리브"가 함께 있을 때만 맛을 내는 패턴을 기억하고 있다면, 올리브가 빠진 "페퍼로니 + 치즈" 덩어리의 점수는 자연스럽게 달라집니다.
  2. 새로운 점수 계산법 (연합 신뢰도):

    • 저자들은 AI 가 특정 묶음 (Coalition) 을 얼마나 '신뢰할 수 있는 단위'로 인식하는지 측정하는 3 가지 척도를 만들었습니다.
    • 신뢰할 수 있는 묶음: "이 단어들은 항상 함께 움직여야 의미가 있다"는 것을 AI 가 명확히 학습했다면, 이 묶음의 점수는 개별 점수의 합과 거의 같아집니다.
    • 신뢰할 수 없는 묶음: "이 단어들은 사실 따로따로 다른 의미로 쓰인다"면, 묶어서 계산하면 점수가 엉뚱하게 나옵니다.

🎮 4. 실제 적용: 바둑과 영화 리뷰

이 이론이 실제로 어떻게 쓰이는지 보여줍니다.

  • 바둑 (Go) 게임:
    • AI 는 바둑돌 하나하나의 점수가 아니라, 돌들이 모여 만든 **'형상 (패턴)'**으로 승리를 판단합니다.
    • 이 논문을 통해 AI 가 어떤 돌들의 조합 (예: '어깨치기' 패턴) 을 중요한 전략으로 인식하는지, 혹은 인간이 생각하지 못한 새로운 패턴을 발견할 수 있게 되었습니다. 마치 AI 의 머릿속에서 "이 돌들은 따로 놀지 않고 팀을 이룬다"는 것을 찾아내는 것과 같습니다.
  • 영화 리뷰 (NLP):
    • "매혹적인 (mesmerizing) 연기 (performances)"라는 문구를 분석할 때, AI 는 이 두 단어를 하나의 덩어리로 인식합니다.
    • 반면, "블레어 (blair) 와 라이벌 (rivaling)"처럼 사실은 다른 문맥에 쓰이는 단어들을 억지로 묶으면, AI 는 이를 신뢰할 수 없는 묶음으로 판단하여 점수가 낮게 나옵니다.

💡 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"AI 를 설명할 때, 무작위로 조각을 잘라내지 말고, AI 가 실제로 어떻게 '묶음'을 인식하는지 찾아내야 한다"**고 말합니다.

  • 기존: "이게 1 점, 저게 2 점, 합쳐서 3 점이야." (단순 덧셈)
  • 이 논문: "이 두 개는 함께 있어야 5 점짜리 마법을 부려. 따로 떼어내면 1 점, 2 점으로 쪼개져 버려. 우리가 묶을 때는 AI 의 'AND/OR' 마법 규칙을 따라야 해."

결국 이 연구는 AI 가 내린 결정에 대해 인간의 직관과 더 잘 맞는, 더 정확한 설명을 가능하게 해주는 나침반을 제공한 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →