Hierarchical Concept-based Interpretable Models

이 논문은 개념 간의 관계를 계층적으로 모델링하고 추가 주석 없이 세부 개념을 자동 발견하는 'Concept Splitting' 기법을 제안함으로써, 기존 개념 임베딩 모델의 한계를 극복하고 해석 가능성과 작업 정확도를 동시에 향상시킨 'HiCEMs'을 소개합니다.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 **(AI)에 대한 연구입니다.

기존의 AI 는 정답은 잘 맞추지만, "왜 그 답을 냈는지"를 설명할 때 마치 마법처럼 검은 상자 안에서 뭘 했는지 알 수 없는 경우가 많습니다. 이 논문은 그 검은 상자를 열어, AI 가 어떻게 생각했는지 인간이 이해할 수 있는 **'개념 **(Concept)으로 설명하는 새로운 방법을 제안합니다.

주요 내용을 요리와 장난감에 비유해서 쉽게 설명해 드릴게요.


1. 문제: AI 는 너무 추상적으로 생각해요

기존의 AI 모델 (CEM) 은 인간이 이해할 수 있는 개념을 사용하긴 합니다. 예를 들어, "이 사진에 야채가 있나?"라고 물어보면 "네"라고 답할 수 있죠.
하지만 여기서 문제가 생깁니다.

  • 세부적인 관계가 없음: AI 는 '야채'라는 개념만 알지, 그 안에 '양파'가 있는지 '당근'이 있는지는 구분하지 못합니다. 마치 "과일"이라는 단어만 알고 "사과"나 "배"는 구분하지 못하는 아이와 비슷합니다.
  • 많은 설명이 필요함: AI 가 '양파'와 '당근'을 모두 구분하게 하려면, 처음부터 '양파'와 '당근'에 대한 레이블 (설명) 을 모두 직접 붙여줘야 합니다. 이는 매우 비싸고 귀찮은 일입니다.

2. 해결책 1: "개념 분할 (Concept Splitting)" - 숨겨진 보석 찾기

저자들은 AI 가 이미 학습한 지식 속에, 우리가 알려주지 않았던 세부적인 개념들이 숨겨져 있다는 사실을 발견했습니다.

  • 비유: AI 의 머릿속을 거대한 보석 광산이라고 상상해 보세요. 우리는 "야채"라는 큰 보석만 줬는데, AI 는 그 안에 "양파", "당근"이라는 작은 보석들도 이미 품고 있습니다.
  • **방법 **(Concept Splitting) 저자들은 SAE(희소 자동 인코더)라는 특수한 도구를 이용해, AI 의 머릿속에서 이 작은 보석들 (세부 개념) 을 자동으로 찾아냅니다.
    • 우리가 "야채"라고만 알려줘도, AI 는 스스로 "아, 이거 양파야, 저거 당근이구나"라고 구분하는 패턴을 찾아냅니다.
    • 장점: 우리가 일일이 "양파", "당근"이라고 설명해 주지 않아도, AI 가 스스로 세부 사항을 찾아내서 레이블을 만들어냅니다.

3. 해결책 2: "계층적 개념 모델 (HiCEM)" - 나무 구조로 생각하기

찾아낸 세부 개념들을 잘 정리해서 AI 에게 다시 가르쳐 주는 새로운 모델입니다.

  • 비유: 기존 모델은 모든 개념을 동일한 평면에 나열했습니다. (야채, 양파, 당근, 사과, 배가 모두 같은 줄에 서 있는 것)
  • **새로운 모델 **(HiCEM) 이 모델은 개념을 **나무 **(Hierarchy)처럼 정리합니다.
    • 뿌리: '야채'
    • 가지: '양파', '당근'
    • : 실제 이미지
    • 이렇게 **상위 개념 **(야채)과 **하위 개념 **(양파)의 관계를 명확히 연결합니다.

4. 왜 이것이 중요한가요? (실제 효과)

이 연구는 PseudoKitchens라는 가상의 3D 주방 데이터셋과 실제 이미지 데이터 (ImageNet 등) 를 통해 실험했습니다.

  1. 인간이 이해할 수 있는 설명: AI 가 "야채가 있다"고 말할 때, HiCEM 은 "아, 양파당근이 있어서 그렇다"라고 구체적으로 설명할 수 있습니다.
  2. **수정 가능 **(인터벤션) 만약 AI 가 "양파"를 잘못 인식했다면, 인간이 "아니야, 이건 양파가 아니라 야"라고 손쉽게 수정해 줄 수 있습니다. 그러면 AI 는 그 수정을 바탕으로 최종 답을 다시 계산합니다.
  3. 정확도 유지: 세부적인 설명을 추가한다고 해서 AI 의 정답률이 떨어지지 않습니다. 오히려 세부 사항을 고쳐주면 정답률이 더 올라가기도 합니다.

5. 요약: 이 연구가 가져오는 변화

  • 기존: AI 는 "야채가 있어요"라고만 말함. (세부 사항 모름, 수정 어려움)
  • **이 연구 **(HiCEM) AI 는 "야채가 있어요. 구체적으로는 양파당근이 섞여 있어요."라고 말함.
    • 장점: 우리가 일일이 모든 세부 사항을 가르쳐 주지 않아도, AI 가 스스로 세부 사항을 찾아내고, 인간이 필요할 때 그 세부 사항을 수정해 줄 수 있습니다.

결론적으로, 이 논문은 AI 가 인간의 사고 방식처럼 상위 개념에서 하위 개념으로 계층적으로 생각하게 만들어, AI 의 판단을 더 투명하고 신뢰할 수 있게 만들었습니다. 마치 AI 가 "내가 왜 이걸 선택했는지"를 세부적인 이유까지 설명해 주는 똑똑한 비서가 된 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →