Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

이 논문은 GPT-2 Small 의 간접 객체 식별 (IOI) 태스크에서 활성화 패칭을 통해 인과적으로 중요한 어텐션 헤드를 식별하고, 이를 기반으로 생성된 자연어 설명의 충실도를 평가하여 기계적 해석 가능성과 인간이 이해할 수 있는 설명 사이의 간극을 해소하는 파이프라인을 제시합니다.

Ajay Pravin Mahale

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 거대 인공지능 (LLM) 이 어떻게 '생각'하는지 그 내부 작동 원리를 파헤치고, 이를 일반인이 이해할 수 있는 쉬운 말로 설명하는 새로운 방법을 제안한 연구입니다.

한마디로 요약하면: **"AI 가 왜 그런 답을 냈는지, 단순히 '어디를 봤는지'가 아니라 '무엇이 진짜 원동력인지'를 찾아서 설명하는 방법"**을 개발했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.


🕵️‍♂️ 1. 문제: AI 는 '마법 상자'입니다

우리가 AI 에게 질문하면 멋진 답이 나오지만, 그 내부에서는 어떤 일이 일어나는지 알 수 없습니다. 마치 마법 상자를 켜서 마법이 일어나는 건 보이지만, 그 안에 어떤 지팡이가 흔들렸는지, 어떤 주문이 외워졌는지는 알 수 없는 상황입니다.

기존 연구들은 두 가지 길을 갔습니다:

  1. 기계공학적 접근: AI 의 회로 (뇌세포 같은 것) 를 뜯어보며 "이 부품이 17% 기여했어"라고 기술적인 용어로 설명합니다. (너무 어렵죠.)
  2. 설명 위주 접근: AI 가 어떤 단어에 집중했는지 보여줍니다. 하지만 집중했다고 해서 그 단어가 진짜 이유인 건 아닐 수 있습니다. (예: "비행기가 날아갈 때 엔진 소리만 크게 들린다고 해서 엔진이 날아간 이유는 아니다"처럼요.)

🔧 2. 해결책: '수리공'과 '해설가'의 협업

이 논문은 이 두 가지를 합친 새로운 3 단계 프로세스를 제안합니다.

1 단계: '수리공'이 핵심 부품을 찾습니다 (회로 분석)

저자들은 AI 를 마치 고장 난 기계처럼 다룹니다. 특정 부품을 잠시 끄거나 (공격), 다른 기계의 부품으로 바꿔 끼워 (패치) 보며 **"이 부품이 없으면 AI 가 망가질까?"**를 확인합니다.

  • 비유: 비행기가 이륙할 때, 엔진 1 번을 끄면 이륙이 안 되지만 엔진 2 번을 끄면 그냥 덜덜 떨기만 한다면, 엔진 1 번이 '진짜 핵심 부품'인 것입니다.
  • 결과: GPT-2 라는 작은 AI 모델에서 '간접 목적어 찾기'라는 게임을 할 때, **전체 뇌의 61.4% 를 담당하는 6 개의 핵심 부품 (Attention Heads)**을 찾아냈습니다.

2 단계: '해설가'가 설명을 만듭니다 (자연어 생성)

이제 찾은 핵심 부품들을 사람이 읽을 수 있는 문장으로 바꿉니다.

  • 구식 방법 (템플릿): "모델은 '메리'라고 예측했습니다. 왜냐하면 L9H9 부품이 66% 집중했기 때문입니다." (딱딱하고 기계적입니다.)
  • 새로운 방법 (AI 해설가): 더 똑똑한 AI 를 시켜서 "GPT-2 는 '메리'라고 예측했습니다. L9H9 부품이 메리에게 66% 집중하는 반면, 존에게는 7% 만 집중했기 때문입니다."라고 맥락이 살아있는 설명을 만들어냅니다.
  • 결과: 이 새로운 방법이 기존 방법보다 66% 더 훌륭하고 자연스러운 설명을 만들어냈습니다.

3 단계: '검증관'이 설명이 진짜인지 확인합니다 (신뢰도 평가)

만들어진 설명이 정말 AI 의 작동 원리를 faithfully(충실하게) 반영했는지 테스트합니다.

  • 충분성 (Sufficiency): "이 부품들만으로도 AI 가 정답을 맞췄을까?" → 100% 성공! (핵심 부품만 있어도 정답을 맞췄습니다.)
  • 포괄성 (Comprehensiveness): "이 부품들을 끄면 AI 가 망가질까?" → 22% 실패. (부품을 끄고도 AI 가 여전히 정답을 맞춘 경우가 많았습니다.)

🤔 3. 놀라운 발견: "왜 설명이 100% 완벽하지 않을까?"

여기서 가장 흥미로운 부분이 나옵니다. 설명이 100% 완벽하지 않다는 건, AI 에게 '백업 시스템'이 있다는 뜻입니다.

  • 비유: 비행기가 엔진 1 번이 고장 나도 엔진 2 번, 3 번이 함께 작동해서 이륙할 수 있다면, 우리는 "엔진 1 번이 핵심이다"라고 설명할 수 있지만, 실제로는 엔진 1 번이 없어도 비행기는 날아갑니다.
  • 의미: AI 는 하나의 부품에 의존하지 않고, 여러 부품이 서로 돕는 분산된 백업 시스템을 가지고 있습니다. 그래서 핵심 부품만 설명하면 '충분'하지만, 모든 것을 설명하려면 '불완전'해집니다.

또한, "AI 가 자신감 있게 답할 때 (높은 확률), 그 설명이 진짜일 것이라고 믿으면 안 됩니다."

  • AI 가 99% 확신하며 답을 해도, 그 뒤에 숨겨진 복잡한 백업 시스템 때문에 우리가 찾은 설명은 실제 원인과 다를 수 있습니다. (상관관계가 거의 0 에 가까웠습니다.)

🚀 4. 결론: 무엇을 얻었나요?

이 연구는 AI 의 내부 작동 원리를 단순히 '어디를 봤는지'가 아니라, **'무엇이 진짜 원인인지'**를 찾아내어 설명하는 길을 열었습니다.

  1. 진짜 원인을 찾았다: AI 의 '뇌'에서 정답을 만드는 핵심 부품 6 개를 찾아냈습니다.
  2. 사람이 읽기 쉬운 설명을 만들었다: AI 가 이 복잡한 데이터를 사람 언어로 자연스럽게 번역해냈습니다.
  3. 진실을 경고했다: "AI 가 자신감 있게 말한다고 해서 그 설명이 전부는 아니다. AI 는 여러 가지 방법으로 문제를 해결하는 '백업 시스템'을 가지고 있다"는 사실을 밝혀냈습니다.

이 연구는 앞으로 우리가 AI 를 더 투명하게 이해하고, 신뢰할 수 있는 AI 시스템을 만드는 데 중요한 기초를 닦아주었습니다. 마치 복잡한 기계의 작동 원리를 해부해서, 일반인도 이해할 수 있는 '사용 설명서'를 만들어준 것과 같습니다.