Interpreting Transformers Through Attention Head Intervention

이 논문은 트랜스포머 모델의 어텐션 헤드 개입이 상관관계 관찰을 넘어 인과적 메커니즘 검증과 AI 안전을 위한 행동 제어에 이르는 해석 가능성 연구의 패러다임 전환을 어떻게 주도했는지 탐구합니다.

Mason Kadem, Rong Zheng

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 AI 의 두뇌를 해부하다: "주의 집중"을 조작하는 과학

이 논문은 인공지능 (특히 '트랜스포머' 모델) 이 어떻게 생각하고 결정하는지 그 내부 작동 원리를 이해하려는 연구에 대해 설명합니다. 특히, AI 가 문장을 처리할 때 사용하는 **'주의 집중 (Attention)'**이라는 메커니즘을 직접 건드려보면서, 무엇이 진짜 중요한지 찾아내는 방법을 다룹니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.


1. 왜 AI 의 두뇌를 해부해야 할까요?

AI 는 점점 똑똑해지고 있지만, 우리는 그런 결정을 내리는지 모릅니다. 마치 자동차가 스스로 달릴 수는 있어도, 엔진이 어떻게 작동하는지 모르는 것과 비슷합니다.

  • 문제: AI 가 위험한 상황에서 잘못된 결정을 내리면 누가 책임질까요? (고위험 분야)
  • 해결: AI 의 '두뇌 회로'를 이해하면, 우리가 AI 를 통제하고, 새로운 지식을 발견하며, 더 안전한 AI 를 만들 수 있습니다.

2. 과거의 실수: "눈에 보이는 것"이 진실일까?

과거 연구자들은 AI 가 문장을 읽을 때 **어떤 단어에 집중했는지 (주의 집중도)**를 그림으로 그려봤습니다.

  • 비유: AI 가 "사과를 먹었다"라는 문장을 읽을 때, '사과'라는 단어에 집중했으니, AI 는 '사과'가 중요하다고 생각한 게 틀림없다! 라고 믿었습니다.
  • 현실: 하지만 이는 오해였습니다. AI 가 '사과'에 집중한다고 해서, 그 단어가 결정을 내리는 진짜 원인은 아닐 수 있습니다. 마치 사람이 책을 읽을 때 눈이 글자에 머물러 있다고 해서, 그 글자가 이야기의 핵심은 아닐 수 있는 것과 같습니다.
  • 결론: 단순히 "어디를 봤는지"를 보는 것만으로는 AI 의 진짜 생각 과정을 알 수 없습니다.

3. 새로운 방법: "두뇌 수술" (Head Intervention)

이 논문이 주장하는 핵심은 **"직접 해보지 않으면 모른다"**는 것입니다. 연구자들은 AI 의 내부 부품인 **'주의 헤드 (Attention Head)'**를 하나씩 끄거나 (제거하거나) 조작해봤습니다.

  • 비유 (조리실 시나리오):
    • 과거 (관찰): 요리사가 소금 통을 자주 만지는 걸 보고 "소금이 이 요리의 핵심이다!"라고 추측했습니다.
    • 현재 (개입): 요리사가 소금 통을 아예 치워버렸습니다. 그랬더니 요리가 맛이 없게 변했습니다. -> "아, 소금이 진짜 핵심이구나!"
    • 반대 경우: 소금 통을 치웠는데 요리 맛이 그대로라면? -> "아, 소금은 중요하지 않았구나. 요리사가 그냥 습관적으로 만졌을 뿐이다."

이처럼 부품을 제거했을 때 시스템이 어떻게 변하는지를 보는 것이 '인과적 해석 (Mechanistic Interpretability)'입니다.

4. 놀라운 발견 3 가지

① 전문가와 예비군의 공존 (전문화 vs 중복성)

AI 는 수많은 '주의 헤드'를 가지고 있습니다.

  • 전문가: 어떤 헤드는 문법 (주어 - 동사 연결) 을 담당하고, 어떤 헤드는 감정을 담당합니다.
  • 중복성: 놀랍게도 AI 의 70~90% 는 없어도 큰 문제가 없습니다. 마치 비행기에 예비 엔진이 여러 개 달려 있는 것처럼, AI 는 매우 튼튼하게 설계되어 있습니다.
  • 교훈: 눈에 보이는 패턴이 중요해 보여도, 실제로는 쓸모없는 '장식'일 수 있습니다.

② 역설적인 진실 (보이는 것 ≠ 중요한 것)

  • 비유: 어떤 헤드는 매우 깔끔하고 인간이 이해하기 쉬운 문법 규칙을 따릅니다. 하지만 이 헤드를 제거해도 AI 는 여전히 똑똑하게 작동합니다.
  • 반면, 어떤 헤드는 매우 복잡하고 이해하기 어렵게 작동하지만, 이걸 끄면 AI 가 멍청해집니다.
  • 결론: "이해하기 쉬운 설명"이 "진짜 원인"을 보장하지는 않습니다.

③ 악당 헤드의 발견 (억제 작용)

가장 흥미로운 점은 AI 가 스스로를 방해하는 경우가 있다는 것입니다.

  • 어떤 헤드는 다른 헤드가 좋은 답을 내놓으려 할 때, 그 답을 막아내는 (억제하는) 역할을 합니다.
  • 연구자들은 이 '악당 헤드'를 제거하자, AI 가 평소에는 못 하던 훌륭한 답변을 내놓았습니다. 마치 뇌의 특정 신경을 차단하자 기억력이 좋아진 것과 같습니다.

5. 이제 AI 를 조종할 수 있다! (해석에서 통제까지)

이제 우리는 AI 의 내부 구조를 이해했으니, 단순히 "왜 그랬는지"를 아는 것을 넘어 AI 를 조종할 수 있습니다.

  • 유해한 내용 제거: AI 가 독설이나 혐오 발언을 할 때, 그와 관련된 특정 '헤드'를 찾아서 약하게 조절 (스케일링) 하면, 독설을 50% 이상 줄일 수 있었습니다.
  • 특정 능력 강화: "색깔"에 집중하는 헤드를 강화하면, AI 가 그림 설명을 할 때 색깔을 더 자세히 묘사하게 만들 수 있습니다.
  • 의미: 이제 우리는 AI 를 단순히 '검은 상자'로 보는 것이 아니라, 부품을 조절하여 원하는 대로 작동하게 만드는 엔지니어가 되었습니다.

6. 아직 해결해야 할 문제들

물론 완벽한 해법은 아닙니다.

  • 부작용 (Distribution Shift): 부품을 떼어내면 AI 가 평소와 다른 이상한 상태에 빠질 수 있습니다. (비유: 엔진을 떼어내면 차가 멈추지만, 그걸로 엔진의 진짜 역할을 다 알 수 있는지는 의문)
  • 복잡한 역할 (Polysemanticity): 하나의 부품이 여러 가지 일을 동시에 하는 경우가 있어, 어떤 일을 하는지 정확히 분리해내기 어렵습니다.
  • 규모의 문제: 최신 AI 는 부품이 너무 많아 하나하나 실험하기엔 시간이 너무 걸립니다.

📝 한 줄 요약

이 논문은 **"AI 가 무엇을 보고 있는지 그림으로 보는 것만으로는 부족하며, 직접 부품을 끄고 켜보면서 (개입) 진짜 원인을 찾아내고, 이를 통해 AI 의 행동을 통제해야 한다"**는 것을 증명했습니다.

이는 AI 연구가 **"관찰하는 과학"**에서 **"실험하고 통제하는 과학"**으로 성장했음을 의미합니다. 이제 우리는 AI 의 두뇌를 해부하여, 더 안전하고 유용한 AI 를 만들 준비가 되었습니다.