Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보는 AI 가 실제로 무엇을 생각하고 있는지, 그 내부의 비밀을 파헤친 연구"**입니다.

일반적으로 우리가 AI 에게 "이 영상은 볼링이다"라고 말하면, AI 는 단순히 "네, 맞습니다"라고 답할 뿐입니다. 하지만 이 연구는 **"AI 가 '볼링'이라고 대답하기 전에, 그 내부에서 '공이 성공적으로 핀을 맞췄다 (Strike)'는 사실과 '공이 홈으로 빠졌다 (Gutter)'는 사실을 어떻게 구분하고 계산하는지"**를 기계의 뇌를 해부하듯 분석했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🎬 1. 연구의 배경: AI 는 왜 '검은 상자'일까요?

우리가 볼링을 치면, 공이 핀을 쓰러뜨리면 '성공', 홈으로 빠지면 '실패'입니다. 하지만 AI 에게는 둘 다 그냥 **'볼링'**이라는 하나의 정답일 뿐입니다.
AI 는 정답을 맞추지만, 내부적으로는 성공과 실패를 어떻게 다르게 이해하고 있는지 우리는 알 수 없었습니다. 마치 AI 가 "저는 볼링을 잘합니다"라고 말하지만, 실제로는 "성공할 때와 실패할 때의 감정이 완전히 다르다"는 사실을 숨기고 있는 것과 같습니다.

🔍 2. 연구 방법: AI 의 뇌를 '수리'하며 관찰하기

연구진은 AI 가 볼링 영상을 볼 때, 내부의 어떤 부품이 어떤 역할을 하는지 찾기 위해 두 가지 실험을 했습니다.

실험 A (관찰): AI 가 영상 중 어떤 부분을 가장 주시하는지 '시선'을 추적했습니다.
실험 B (수리/조작): AI 의 특정 부품을 떼어내거나, 성공한 영상의 정보를 실패한 영상에 '붙여넣기 (패치)'를 해보며 반응을 지켜봤습니다.

🏗️ 3. 핵심 발견: "수집가는 Attention, 요리사는 MLP"

이 연구에서 가장 놀라운 발견은 AI 내부의 역할 분담이었습니다. AI 는 두 가지 주요 부품을 가지고 있는데, 마치 한 팀이 프로젝트를 수행하는 것처럼 서로 다른 일을 합니다.

1️⃣ Attention(어텐션) = "정보 수집가 (Gatherers)"

역할: 이 부품은 영상 속의 중요한 단서들을 모으는 역할을 합니다.
비유: 마치 탐정이나 스카우트 같습니다. "공이 어디로 굴러가는지", "핀이 어디에 있는지" 같은 **저수준의 사실 (Evidence)**을 찾아서 팀에 보고합니다.
특징: 하지만 이 정보만으로는 "성공이다/실패다"라는 결론을 내리기엔 부족합니다.

2️⃣ MLP(멀티레이어 퍼셉트론) = "개념 요리사 (Composers)"

역할: 수집된 정보를 가지고 최종적인 결론을 내리는 곳입니다.
비유: 마치 요리사나 지휘자 같습니다. 탐정들이 가져온 "공의 위치", "핀의 상태" 같은 재료를 받아서, "아! 이건 성공이야!" 혹은 **"아, 이건 실패야!"**라는 **고급 개념 (Concept)**으로 요리해냅니다.
발견: 연구진은 MLP 부품들을 하나씩 떼어내거나 교체해보니, **결론을 내리는 주역은 바로 이 '요리사 (MLP)'**라는 것을 발견했습니다.

🌊 4. 흥미로운 현상: "신호의 증폭"

AI 는 영상을 처음부터 끝까지 볼 때, 초기 단계 (레이어 0~~4) 에는 성공과 실패의 차이가 미미했습니다. 하지만 **중간 단계 (레이어 5~~11)**를 지나면서, "성공 vs 실패"라는 신호가 폭발적으로 증폭되었습니다.

비유: 처음에는 "공이 굴러가네?"라는 작은 소문이었지만, AI 내부의 '요리사들'이 정보를 가공할수록 "성공이다!", "실패다!"라는 확신에 찬 결론으로 변해가는 과정입니다.

🛡️ 5. 왜 이 연구가 중요할까요? (숨겨진 지식의 위험성)

가장 중요한 점은, AI 는 우리가 알지 못하는 사이에 '숨겨진 지식'을 가지고 있다는 것입니다.

연구진은 AI 의 중요한 부품 (성공/실패를 구분하는 핵심 부품) 을 일부 제거해봤습니다.
결과: AI 는 여전히 "볼링"이라고 정답을 맞췄습니다!
이유: AI 는 하나의 부품에 의존하지 않고, 수많은 부품이 서로 중복되어 (Redundant) 일을 하기 때문입니다. 마치 한 줄의 다리가 무너져도 다른 줄이 버티는 것처럼, AI 는 매우 튼튼하게 설계되어 있습니다.

🚨 경고: 이는 AI 가 우리가 의도하지 않은 복잡한 상황 (예: 사기, 위험한 행동) 을 내부적으로는 완벽하게 이해하고 있으면서도, 겉으로는 아무 일도 없는 척 정답만 내놓을 수 있음을 의미합니다.

💡 6. 결론: AI 를 신뢰하려면 '내부'를 봐야 한다

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 정답을 맞춘다고 해서, 그 AI 가 우리가 원하는 대로 '생각'하고 있는 것은 아닙니다. AI 는 우리가 모르는 **'숨겨진 뇌 (Hidden Cognition)'**를 가지고 있을 수 있습니다."

따라서, AI 를 사회에 안전하게 배포하려면 단순히 "정답이 맞는지"만 확인하는 것이 아니라, AI 내부의 '수집가'와 '요리사'가 어떻게 협력하는지, 그 메커니즘을 투명하게 들여다보는 (Mechanistic Interpretability) 노력이 필수적입니다.

한 줄 요약:
이 연구는 AI 가 볼링 영상을 볼 때, **정보를 모으는 '탐정 (Attention)'과 결론을 내리는 '요리사 (MLP)'**가 협력하여 성공과 실패를 구분한다는 사실을 밝혀냈으며, AI 가 겉보기엔 단순해 보이지만 내부에는 우리가 모르는 복잡하고 튼튼한 비밀 지식을 가지고 있음을 경고합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 분류 작업을 위해 학습된 비디오 모델 (Video Vision Transformer, ViViT) 이 최종 출력 결과에는 영향을 미치지 않을 수 있는 미묘하고 숨겨진 의미론적 정보 (예: 성공 vs 실패) 를 내부적으로 어떻게 표현하는지 분석합니다. 기계적 해석 가능성 (Mechanistic Interpretability) 기법을 활용하여, 사전 학습된 비디오 모델 내부에서 '행동의 결과 (Outcome)'를 나타내는 회로를 역공학 (Reverse-engineering) 하였습니다.

1. 연구 배경 및 문제 정의 (Problem)

블랙박스 문제: 비디오 모델 (ViViT 등) 은 높은 정확도를 보이지만, 왜 특정 출력을 내는지 그 추론 과정을 설명하지 못합니다. 이는 신뢰할 수 있는 AI (Trustworthy AI) 의 배포에 큰 장벽이 됩니다.
숨겨진 인지 (Hidden Cognition): 모델이 명시적인 작업 (예: '볼링' 클래스 분류) 에만 학습되었음에도 불구하고, 내부적으로는 입력 데이터의 미묘한 차이 (예: 볼링에서 스트라이크 vs 그터) 를 구별하는 고수준의 의미론적 표현을 학습하고 있을 가능성이 있습니다.
해석의 어려움: 기존 해석 기법들은 주로 언어 모델이나 정적 이미지 모델에 적용되었으며, 시공간적 (Spatio-temporal) 특성을 가진 비디오 데이터의 복잡성으로 인해 적용이 제한적이었습니다.

2. 방법론 (Methodology)

연구는 Kinetics-400 데이터셋으로 사전 학습된 12 레이어의 google/vivit-b-16x2-kinetics400 모델을 대상으로 수행되었습니다. 실험은 '스트라이크 (공이 핀을 맞춘 성공)'와 '그터 (공이 홈으로 들어간 실패)'라는 대조적인 볼링 비디오 쌍을 사용하여 진행되었습니다.

관찰적 분석 (Observational Analysis):
- 직접 로그이트 귀속 (DLA): [CLS] 토큰의 로그이트를 분석하여 어떤 레이어가 최종 분류에 기여하는지 확인.
- 어텐션 시각화: CLS 토큰의 어텐션 헤드가 비디오의 어떤 부분 (공과 핀의 상호작용 등) 에 집중하는지 시각화.
- 선형 프로브 (Linear Probe): 각 레이어의 [CLS] 토큰 활성화값을 기반으로 성공/실패를 분류하는 간단한 로지스틱 회귀 모델을 훈련하여 내부 표현의 선형 분리 가능성 확인.
신호 식별 (Delta Analysis):
- 스트라이크와 그터 비디오 간의 활성화 차이 ( $\Delta = act_{strike} - act_{gutter}$ ) 를 계산하고, 각 레이어에서의 L2 노름을 측정하여 '성공 vs 실패' 신호가 어디서 증폭되는지 파악.
인과적 분석 (Causal Analysis):
- 컴포넌트 제거 (Ablation): 분류에 가장 중요한 토큰들을 제거하여 모델의 강건성 (Robustness) 테스트.
- 활성화 패칭 (Activation Patching): '스트라이크' 비디오의 특정 컴포넌트 (어텐션 또는 MLP) 의 활성화값을 '그터' 비디오에 복사하여, 해당 컴포넌트가 결과 신호 회복에 기여하는 비율을 정량화.

3. 주요 결과 (Key Results)

가. 신호 증폭 캐스케이드 (Signal Amplification Cascade)

초기 레이어 (Layer 0~4): 저수준의 차이만 관찰됨.
중간~~후반 레이어 (Layer 5~~11): '성공 vs 실패' 신호가 급격히 증폭됨. 특히 Layer 5 이후부터 L2 노름이 300% 이상 증가하며, Layer 11 에서 최대에 도달함. 이는 모델이 저수준 특징이 아닌 고수준 의미론적 추상화를 내부적으로 계산하고 있음을 시사.

나. 분업 구조의 발견: "Attention Gathers, MLPs Compose"

인과적 패칭 실험을 통해 모델 내부 회로의 기능적 분업이 명확히 드러났습니다.

어텐션 헤드는 '증거 수집가 (Evidence Gatherers)':
- 관련 시공간적 증거를 잔여 스트림 (Residual Stream) 으로 이동시키는 역할을 함.
- 단일 어텐션 헤드를 패칭할 때 신호 회복률은 37~54% 수준으로 부분적 기여만 함.
MLP 블록은 '개념 구성가 (Concept Composers)':
- '성공' 신호를 생성하는 주요 동력원.
- 단일 MLP 블록을 패칭할 때 4~~9 레이어 구간에서 42~~60% 의 높은 신호 회복률을 보임.
- 분산 및 중복 회로: 어떤 단일 컴포넌트도 100% 신호를 회복하지 못함. 이는 모델이 여러 레이어에 걸쳐 누적적으로 '성공' 개념을 구성하며, 단일 블록의 제거 (Ablation) 에도 강건한 이유를 설명함.

다. 분류 작업과의 분리

중요한 시각적 특징 (공 - 핀 상호작용) 을 제거하는 공격적인 Ablation 실험을 수행했음에도 불구하고, 모델의 최종 '볼링' 분류 정확도는 거의 변하지 않음.
이는 모델이 명시적인 분류 작업과는 독립적으로, 내부적으로 '성공/실패'라는 복잡한 결과를 계산하는 숨겨진 회로를 가지고 있음을 의미함.

4. 주요 기여 (Contributions)

내부 표현의 발견: 최종 분류 레이블이 동일하더라도, 사전 학습된 VideoViT 가 미묘한 행동 결과 (스트라이크 vs 그터) 를 내부적으로 명확하게 구별하여 표현함을 관찰적 및 정량적 증거로 입증.
방법론적 제안: 대조적 비디오 쌍에 대한 델타 분석 (Delta Analysis) 과 활성화 패칭 (Activation Patching) 을 결합하여 내부 결과 신호의 위치를 특정하고, 어텐션과 MLP 의 기능적 역할을 규명하는 방법론 제시.
계산 메커니즘의 역공학: '성공'과 '실패'를 구분하는 핵심 계산 메커니즘을 규명하여, MLP 블록이 개념을 구성하고 어텐션이 증거를 수집한다는 새로운 가설을 인과적으로 입증.

5. 의의 및 시사점 (Significance)

숨겨진 지식 (Hidden Knowledge) 의 존재: 단순 분류 작업으로 학습된 모델조차도 작업 범위를 넘어선 복잡한 결과 (성공/실패) 를 내부적으로 표현할 수 있음을 보여줌. 이는 AI 시스템의 '블랙박스' 문제와 안전성 (Safety) 에 대한 우려를 제기함.
신뢰할 수 있는 AI 를 위한 필요성: 모델이 단순한 출력 모니터링으로는 감지할 수 없는 내부 상태를 가지고 있으므로, 기계적 해석 가능성 (Mechanistic Interpretability) 을 통한 감시 (Oversight) 가 필수적임을 강조.
안전 개입의 한계: 모델의 회로가 분산되고 중복되어 있기 때문에, 단일 '유해한' 컴포넌트를 제거하는 것과 같은 단순한 안전 개입은 효과가 없을 수 있음. 더 정교한 접근법이 필요함.

결론

이 연구는 비디오 모델 내부에서 '행동의 결과'가 어떻게 처리되는지에 대한 최초의 인과적 분석을 제공하며, Attention 이 증거를 수집하고 MLP 가 개념을 구성한다는 분업 구조를 규명했습니다. 이는 AI 모델이 명시적 작업 외에도 복잡한 숨겨진 인지 과정을 수행할 수 있음을 보여주며, 배포 전 AI 시스템의 신뢰성과 안전성을 확보하기 위해 기계적 해석 기술의 중요성을 강조합니다.