Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 거대 인공지능 (LLM) 이 어떻게 '생각'하는지 그 내부 작동 원리를 파헤치고, 이를 일반인이 이해할 수 있는 쉬운 말로 설명하는 새로운 방법을 제안한 연구입니다.

한마디로 요약하면: **"AI 가 왜 그런 답을 냈는지, 단순히 '어디를 봤는지'가 아니라 '무엇이 진짜 원동력인지'를 찾아서 설명하는 방법"**을 개발했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.

🕵️‍♂️ 1. 문제: AI 는 '마법 상자'입니다

우리가 AI 에게 질문하면 멋진 답이 나오지만, 그 내부에서는 어떤 일이 일어나는지 알 수 없습니다. 마치 마법 상자를 켜서 마법이 일어나는 건 보이지만, 그 안에 어떤 지팡이가 흔들렸는지, 어떤 주문이 외워졌는지는 알 수 없는 상황입니다.

기존 연구들은 두 가지 길을 갔습니다:

기계공학적 접근: AI 의 회로 (뇌세포 같은 것) 를 뜯어보며 "이 부품이 17% 기여했어"라고 기술적인 용어로 설명합니다. (너무 어렵죠.)
설명 위주 접근: AI 가 어떤 단어에 집중했는지 보여줍니다. 하지만 집중했다고 해서 그 단어가 진짜 이유인 건 아닐 수 있습니다. (예: "비행기가 날아갈 때 엔진 소리만 크게 들린다고 해서 엔진이 날아간 이유는 아니다"처럼요.)

🔧 2. 해결책: '수리공'과 '해설가'의 협업

이 논문은 이 두 가지를 합친 새로운 3 단계 프로세스를 제안합니다.

1 단계: '수리공'이 핵심 부품을 찾습니다 (회로 분석)

저자들은 AI 를 마치 고장 난 기계처럼 다룹니다. 특정 부품을 잠시 끄거나 (공격), 다른 기계의 부품으로 바꿔 끼워 (패치) 보며 **"이 부품이 없으면 AI 가 망가질까?"**를 확인합니다.

비유: 비행기가 이륙할 때, 엔진 1 번을 끄면 이륙이 안 되지만 엔진 2 번을 끄면 그냥 덜덜 떨기만 한다면, 엔진 1 번이 '진짜 핵심 부품'인 것입니다.
결과: GPT-2 라는 작은 AI 모델에서 '간접 목적어 찾기'라는 게임을 할 때, **전체 뇌의 61.4% 를 담당하는 6 개의 핵심 부품 (Attention Heads)**을 찾아냈습니다.

2 단계: '해설가'가 설명을 만듭니다 (자연어 생성)

이제 찾은 핵심 부품들을 사람이 읽을 수 있는 문장으로 바꿉니다.

구식 방법 (템플릿): "모델은 '메리'라고 예측했습니다. 왜냐하면 L9H9 부품이 66% 집중했기 때문입니다." (딱딱하고 기계적입니다.)
새로운 방법 (AI 해설가): 더 똑똑한 AI 를 시켜서 "GPT-2 는 '메리'라고 예측했습니다. L9H9 부품이 메리에게 66% 집중하는 반면, 존에게는 7% 만 집중했기 때문입니다."라고 맥락이 살아있는 설명을 만들어냅니다.
결과: 이 새로운 방법이 기존 방법보다 66% 더 훌륭하고 자연스러운 설명을 만들어냈습니다.

3 단계: '검증관'이 설명이 진짜인지 확인합니다 (신뢰도 평가)

만들어진 설명이 정말 AI 의 작동 원리를 faithfully(충실하게) 반영했는지 테스트합니다.

충분성 (Sufficiency): "이 부품들만으로도 AI 가 정답을 맞췄을까?" → 100% 성공! (핵심 부품만 있어도 정답을 맞췄습니다.)
포괄성 (Comprehensiveness): "이 부품들을 끄면 AI 가 망가질까?" → 22% 실패. (부품을 끄고도 AI 가 여전히 정답을 맞춘 경우가 많았습니다.)

🤔 3. 놀라운 발견: "왜 설명이 100% 완벽하지 않을까?"

여기서 가장 흥미로운 부분이 나옵니다. 설명이 100% 완벽하지 않다는 건, AI 에게 '백업 시스템'이 있다는 뜻입니다.

비유: 비행기가 엔진 1 번이 고장 나도 엔진 2 번, 3 번이 함께 작동해서 이륙할 수 있다면, 우리는 "엔진 1 번이 핵심이다"라고 설명할 수 있지만, 실제로는 엔진 1 번이 없어도 비행기는 날아갑니다.
의미: AI 는 하나의 부품에 의존하지 않고, 여러 부품이 서로 돕는 분산된 백업 시스템을 가지고 있습니다. 그래서 핵심 부품만 설명하면 '충분'하지만, 모든 것을 설명하려면 '불완전'해집니다.

또한, "AI 가 자신감 있게 답할 때 (높은 확률), 그 설명이 진짜일 것이라고 믿으면 안 됩니다."

AI 가 99% 확신하며 답을 해도, 그 뒤에 숨겨진 복잡한 백업 시스템 때문에 우리가 찾은 설명은 실제 원인과 다를 수 있습니다. (상관관계가 거의 0 에 가까웠습니다.)

🚀 4. 결론: 무엇을 얻었나요?

이 연구는 AI 의 내부 작동 원리를 단순히 '어디를 봤는지'가 아니라, **'무엇이 진짜 원인인지'**를 찾아내어 설명하는 길을 열었습니다.

진짜 원인을 찾았다: AI 의 '뇌'에서 정답을 만드는 핵심 부품 6 개를 찾아냈습니다.
사람이 읽기 쉬운 설명을 만들었다: AI 가 이 복잡한 데이터를 사람 언어로 자연스럽게 번역해냈습니다.
진실을 경고했다: "AI 가 자신감 있게 말한다고 해서 그 설명이 전부는 아니다. AI 는 여러 가지 방법으로 문제를 해결하는 '백업 시스템'을 가지고 있다"는 사실을 밝혀냈습니다.

이 연구는 앞으로 우리가 AI 를 더 투명하게 이해하고, 신뢰할 수 있는 AI 시스템을 만드는 데 중요한 기초를 닦아주었습니다. 마치 복잡한 기계의 작동 원리를 해부해서, 일반인도 이해할 수 있는 '사용 설명서'를 만들어준 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 다양한 작업에서 뛰어난 성능을 보이지만, 내부 의사결정 과정은 여전히 불투명합니다. 기존 연구는 크게 두 가지 방향으로 나뉘어 왔으나 서로 단절되어 있었습니다.

기계적 해석 가능성 (Mechanistic Interpretability): 모델의 내부 회로 (circuit) 수준에서 작동 방식을 역공학하지만, 이를 인간이 이해할 수 있는 언어로 변환하는 데 한계가 있습니다. (예: "L9H9 가 로짓 차이에 17.4% 기여함"과 같은 기술적 용어)
설명 가능한 AI (Explainable AI): 인간이 읽을 수 있는 근거 (rationale) 를 생성하지만, 주로 주시 (attention) 가중치와 같은 상관관계 신호에 의존하여 인과적 메커니즘을 반영하지 못할 수 있습니다.

핵심 문제: 기계적 회로 분석 결과를 인과적으로 충실한 (causally faithful) 자연어 설명으로 자동 변환할 수 있는가?

2. 방법론 (Methodology)

저자는 GPT-2 Small(124M 파라미터) 모델의 간접 대상 식별 (Indirect Object Identification, IOI) 태스크를 기반으로 한 3 단계 파이프라인을 제안합니다.

가. 회로 식별 (Circuit Identification via Activation Patching)

활성화 패치 (Activation Patching): 입력 문장의 이름 위치를 뒤섞어 손상된 (corrupted) 버전을 생성한 후, 각 어텐션 헤드 (attention head) 의 활성화 값을 원래 문장에서 패치하여 모델의 예측 성능 회복 정도를 측정합니다.
인과적 중요도 산출: 로짓 차이 (Logit Difference) 회복 효과를 통해 인과적으로 중요한 헤드를 식별합니다.
- 수식: $Effect_h = \frac{LD_{patched} - LD_{corrupt}}{LD_{clean} - LD_{corrupt}}$

나. 설명 생성 (Explanation Generation)

식별된 회로 데이터를 바탕으로 두 가지 방식으로 자연어 설명을 생성합니다.

템플릿 기반 (Template-based): 추출된 값 (헤드 이름, 어텐션 비율 등) 을 고정된 문장에 삽입하는 방식.
LLM 기반 (LLM-generated): 구조화된 회로 데이터를 LLM 에 프롬프트하여 문맥을 고려한 1~2 문장의 설명을 생성하는 방식.

다. 충실도 평가 (Faithfulness Evaluation)

기존의 ERASER 메트릭을 회로 수준에 맞게 수정하여 적용합니다.

충분성 (Sufficiency): 인용된 헤드가 예측을 완전히 설명하는가?
포괄성 (Comprehensiveness): 인용된 헤드를 제거 (ablation) 했을 때 예측이 변하는가?
품질 점수: 특정 헤드 언급, 백분율 포함, 예측 명칭 포함, 간결성 등을 평가.

3. 주요 기여 (Key Contributions)

회로 분석에서 자연어 설명으로의 변환 파이프라인 구축.
ERASER 메트릭의 회로 수준 적응: 토큰 단위가 아닌 인과적 회로 구성 요소에 대한 평가 지표 도입.
템플릿 vs. LLM 생성 설명 비교: 기계적 해석 가능성 분야에서 처음으로 두 방식을 체계적으로 비교.
설명 - 메커니즘 불일치 실패 분류 (Failure Taxonomy): 설명이 메커니즘과 다른 경우를 분석한 3 가지 실패 카테고리 제시.

4. 실험 결과 (Results)

가. 회로 식별 (RQ1)

GPT-2 Small 은 IOI 태스크에서 100% 정확도를 보였습니다.
활성화 패치를 통해 6 개의 어텐션 헤드를 식별했으며, 이들은 로짓 차이의 61.4% 를 설명했습니다.
- 주요 헤드: L9H9 (Name Mover, 17.4%), L8H10 (S-Inhibition, 12.3%) 등.
- 나머지 38.6% 는 다른 헤드들에 분산되어 있어 백업 메커니즘이 존재함을 시사합니다.

나. 충실도 평가 (RQ2)

충분성 (Sufficiency): 100% 달성 (인용된 헤드가 예측을 완벽히 설명).
포괄성 (Comprehensiveness): 22% 로 낮음. 이는 식별된 헤드를 제거해도 모델이 완전히 실패하지 않음을 의미하며, 분산된 백업 메커니즘이 존재함을 보여줍니다.
성능 비교: 제안된 회로 기반 방법은 주시 (attention) 기반 베이스라인보다 F1 점수에서 75% 더 높은 성능 (36.0% vs 20.6%) 을 보였습니다.

다. 설명 품질 및 실패 분석 (RQ3)

설명 품질: LLM 이 생성한 설명은 템플릿 기반 설명보다 66% 더 높은 품질을 보였습니다. LLM 설명은 구체적인 어텐션 비율과 문맥적 이름을 포함했습니다.
신뢰도와 충실도의 무관계: 모델의 예측 신뢰도 (confidence) 와 설명의 충실도 (comprehensiveness) 간 상관관계는 거의 없었습니다 ( $r = 0.009$ ). 높은 신뢰도라도 설명이 메커니즘을 제대로 반영하지 못할 수 있음을 의미합니다.
실패 카테고리:
1. 분산 계산: 행동이 많은 헤드의 중간 정도 기여로 발생하여 소수 헤드로 설명 불가.
2. 누락된 헤드: 특정 인스턴스에서 중요한 헤드가 고정된 회로 (Top-6) 에 포함되지 않음.
3. 중복된 헤드 활동: 헤드가 활성화되더라도 인과적 커버리지를 증가시키지 않음.

5. 의의 및 시사점 (Significance)

인과적 기반의 설명 필요성: 단순한 어텐션 가중치가 아닌, 활성화 패치와 같은 인과적 분석을 기반으로 한 설명이 필수적임을 입증했습니다.
LLM 의 활용 가치: 기계적 회로 데이터를 인간이 이해하기 쉬운 자연어로 변환하는 데 LLM 이 템플릿보다 훨씬 효과적임을 보였습니다.
신뢰성 함정 경고: 모델의 높은 확신 (confidence) 이 설명의 정확성을 보장하지 않으므로, AI 시스템 배포 시 설명의 포괄성 (comprehensiveness) 을 함께 보고해야 함을 강조합니다.
한계 및 향후 과제: 단일 태스크 (IOI) 와 단일 모델 (GPT-2 Small) 에 국한되었으며, 인간 평가 부재, 고정된 회로 선택 등의 한계가 있습니다. 향후 더 큰 모델과 다양한 태스크로 확장할 필요가 있습니다.

이 연구는 LLM 의 내부 작동 원리를 인간에게 투명하게 전달하면서도 인과적 정확성을 유지하는 새로운 프레임워크를 제시했다는 점에서 기계적 해석 가능성 분야의 중요한 진전으로 평가됩니다.