Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 발견: "거대한 도서관은 사실 작은 책방 2~3 개를 반복해서 방문하는 것"

기존의 생각:
ViT 모델은 12 개, 24 개, 혹은 그 이상의 층 (Layer) 을 가지고 있습니다. 마치 12 개의 서로 다른 전문가 (층 1, 층 2, 층 3...) 가 순서대로 이미지를 분석한다고 생각했던 것입니다. 각 층은 서로 다른 일을 한다고 여겨졌습니다.

이 논문의 발견 (블록 순환 가설, BRH):
연구진이 자세히 보니, 이 12 개의 층은 사실 서로 다른 2~3 개의 전문가가 반복해서 일하는 것과 같았습니다.

비유: 12 개의 층을 가진 ViT 는 마치 12 개의 서로 다른 방이 있는 건물이 아니라, 유사한 기능을 하는 2~~3 개의 방 (블록) 을 4~~6 번씩 반복해서 통과하는 구조였습니다.
결과: 원래 12 개의 층으로 이미지를 분석하던 모델을, **단순히 2~3 개의 층을 반복해서 돌리는 모델 (Raptor)**로 바꿔도 성능이 거의 떨어지지 않았습니다. (DINOv2 라는 유명한 모델의 성능을 96% 이상 유지했습니다.)

2. 실험 방법: "유령을 쫓아내는 Raptor"

연구진은 이 가설을 증명하기 위해 **'Raptor'**라는 새로운 모델을 만들었습니다.

상황: 원래의 거대한 ViT 모델 (선생님) 이 이미지를 보고 중간에 어떤 생각을 하는지 (내부 데이터) 를 모두 기록해 둡니다.
작업: Raptor (학생) 는 이 기록을 보며, "내가 2~3 개의 작은 블록을 반복해서 돌리면, 선생님이 12 단계를 거칠 때와 똑같은 생각을 할 수 있을까?"를 학습합니다.
결과: 놀랍게도 Raptor 는 선생님이 12 단계를 거칠 때와 **거의 똑같은 내부 생각 (표상)**을 만들어냈습니다. 이는 ViT 가 실제로는 복잡한 12 단계가 아니라, 간단한 2~3 단계의 반복으로 작동하고 있다는 강력한 증거입니다.

3. 왜 이런 일이 일어날까? (우연이 아니라 학습의 결과)

왜 이렇게 단순한 구조가 될까요? 연구진은 두 가지 이유를 찾았습니다.

우연의 산물이 아님: 모델을 처음부터 학습시키지 않은 상태 (무작위 가중치) 에서는 이런 반복 구조가 뚜렷하지 않았습니다. 하지만 학습을 통해 모델이 스스로 "아, 이걸 반복해서 쓰는 게 더 효율적이구나!"라고 깨닫고 이런 구조를 만들었습니다.
확률적 깊이 (Stochastic Depth) 의 역할: 학습 과정에서 일부 층을 임의로 건너뛰는 기법 (확률적 깊이) 을 사용하면, 모델은 더 강력한 반복 구조를 만들게 됩니다. 마치 "어떤 날은 쉬고, 어떤 날은 열심히 일해야 한다"는 규칙이 있으면, 오히려 핵심 업무 (반복 블록) 를 더 잘 정립하게 되는 것과 같습니다.

4. 모델의 마음속 풍경: "나침반과 나비"

연구진은 이 반복되는 과정을 '동역학 (Dynamics)'이라는 관점에서 분석했는데, 아주 흥미로운 현상을 발견했습니다.

방향성 수렴 (나침반): 이미지의 특징을 나타내는 데이터는 층을 거칠수록 점점 특정 방향 (클래스, 예: '고양이'나 '자동차') 으로 모입니다. 마치 나침반의 바늘이 북극을 향해 흔들리다가 결국 멈추는 것처럼, 데이터의 방향이 안정화됩니다.
토큰의 역할 (나비와 지도):
- 패치 토큰 (이미지 조각들): 처음에는 각자 제멋대로 움직이지만, 나중에는 모두 같은 방향으로 움직이며 **군집 (Mean-field)**을 이룹니다. 마치 나비 떼가 한 방향으로 날아오르는 것처럼요.
- CLS 토큰 (전체 요약자): 마지막 단계에서 갑자기 급격한 방향 전환을 하며 전체 이미지를 요약합니다.
저차원 붕괴: 시간이 지날수록 데이터가 움직이는 공간이 점점 좁아져서, 매우 단순한 공간 (저차원) 으로 수렴합니다. 복잡한 100 차원의 공간이 결국 6 차원 정도로 줄어드는 것입니다.

5. 결론: "복잡함 속에 숨겨진 단순함"

이 연구의 가장 큰 메시지는 **"인공지능 모델은 우리가 생각하는 것보다 훨씬 단순하고 우아한 원리로 작동한다"**는 것입니다.

간단한 비유: 거대한 ViT 모델은 마치 1,000 페이지짜리 두꺼운 책처럼 보이지만, 실제로는 2~3 페이지의 핵심 내용만 반복해서 읽는 것과 같습니다.
의의: 이 발견은 AI 모델을 더 쉽게 이해하고 (해석 가능성), 더 효율적으로 만들 수 있는 길을 열어줍니다. 또한, AI 가 어떻게 '지능'을 획득하는지에 대한 새로운 통찰을 줍니다. 즉, AI 는 무작위로 복잡한 계산을 하는 것이 아니라, 효율적인 반복 패턴을 찾아내어 문제를 해결한다는 것입니다.

한 줄 요약:

"거대하고 복잡한 AI 모델은 사실 작은 블록을 몇 번만 반복해서 돌리면 해결할 수 있는 간단한 문제를, 마치 12 단계의 복잡한 공정을 거치는 것처럼 보여주고 있었을 뿐입니다. 우리는 이제 그 비밀을 찾아냈습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

배경: ViTs 는 컴퓨터 비전 분야의 표준 백본이 되었으나, 그 내부 작동 원리 (mechanism) 에 대한 체계적인 이해는 부족합니다.
현황: ViT 의 깊은 층 구조는 잔차 연결 (residual connections) 을 통해 동적 시스템 (dynamical systems) 과 유사한 흐름을 암시하지만, 층별 파라미터가 모두 다르기 때문에 명확한 '재귀적 구조'로 해석하기 어렵습니다.
핵심 질문: ViT 의 층별 표현 (representation) 유사성이 단순히 겉모습의 유사성인지, 아니면 실제로 동일한 계산 블록이 여러 층에서 재사용되는 기능적 재귀 (functional recurrence) 를 의미하는지 확인이 필요합니다.
목표: ViT 의 복잡한 $L$ 개의 층을 소수의 $k$ 개 ( $k \ll L$ ) 블록으로 재구성하여 동일한 내부 표현 궤적을 생성할 수 있는지 증명하고, 이를 통해 모델의 동역학적 해석 (Dynamical Interpretability) 을 가능하게 하는 것입니다.

2. 방법론 (Methodology)

A. 블록 재귀 가설 (Block-Recurrent Hypothesis, BRH)

가설: 학습된 ViT 는 $L$ 개의 층이 $k$ 개의 연속된 위상 (phases) 으로 조직화되어 있으며, 각 위상 내에서는 동일한 파라미터가 묶인 (weight-tied) 블록이 반복적으로 적용됩니다.
수식적 정의: 원래 ViT 의 층 $f_\ell$ 는 $k$ 개의 블록 $B_1, \dots, B_k$ 를 반복 적용한 합성 함수로 근사할 수 있습니다 ( $f_\ell \approx B_k^{(n_k)} \circ \dots \circ B_1^{(n_1)}$ ).

B. Raptor (Recurrent Approximations to Phase-structured TransfORmers)

구현: BRH 를 검증하기 위해 사전 학습된 ViT 를 모방하는 블록 재귀 대리 모델 (Raptor) 을 구축했습니다.
학습 전략:
1. 위상 발견 (Phase Discovery): 층 간 표현 유사성 행렬 (Layer-layer similarity matrix) 을 분석하여 '최대 절단 (Max-Cut)' 알고리즘을 사용하여 연속된 위상 경계를 자동으로 찾습니다.
2. 하이브리드 학습 (Hybrid Training):
  - Stage 1 (Teacher Forcing): 각 블록이 이전 층의 실제 (Ground Truth) 활성화 값을 입력받아 다음 층을 예측하도록 학습 (병렬 학습 가능, 안정성 확보).
  - Stage 2 (Autoregressive): 모든 블록을 연결하여, 모델이 자신의 이전 예측값을 입력으로 받아 전체 층을 순차적으로 재현하도록 학습 (자기 일관성 확보).
3. 목표: 단순히 최종 출력만 맞추는 것이 아니라, 모든 중간 층의 내부 활성화 (intermediate activations) 를 정확히 재현하도록 학습합니다.

C. 동적 해석성 프레임워크 (Dynamical Interpretability)

Raptor 를 통해 ViT 를 이산 시간 동적 시스템으로 간주하고, 토큰의 방향성 변화, 수렴 특성, 저차원 매니폴드 (low-dimensional manifold) 수렴 등을 분석했습니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

1. 블록 재귀 구조의 실증적 증거

다양한 ViT 모델 (DINOv2, SigLIP 등) 에서 층 간 유사성 행렬이 명확한 블록 대각 구조를 보임을 확인했습니다.
Raptor 성능:
- DINOv2 (ViT-Base) 재현: 2 개의 재귀 블록만 사용하여 ImageNet-1k 선형 프로브 (linear probe) 정확도의 96% 를 달성했습니다. 3 개 블록 사용 시 98% 까지 향상되었습니다.
- 작은 모델 실험: CIFAR-100 에서 2 개 블록만으로도 Teacher ViT 와 유사한 성능을 내며, 무작위 분할보다 Max-Cut 기반 분할이 훨씬 효과적이었습니다.
- 기능적 재사용성 검증: 같은 블록 내의 층을 서로 바꾸면 성능이 유지되지만, 다른 블록 간 층을 바꾸면 모델이 붕괴됨을 확인하여, 각 블록이 고유한 기능적 역할을 수행함을 증명했습니다.

2. 블록 재귀 구조의 생성 메커니즘

확률적 깊이 (Stochastic Depth): 학습 시 확률적 드롭아웃 (Stochastic Depth) 비율을 높일수록 층 간 표현 유사성이 증가하고, Raptor 가 Teacher ViT 를 더 잘 재현할 수 있음을 발견했습니다. 이는 정규화가 블록 재귀 구조 형성을 촉진함을 시사합니다.
과적합 (Overfitting) 영향: ViT 가 과적합되기 시작하면 Raptor 재현 정확도가 급격히 떨어지며, 이는 적절한 정규화가 단순한 재귀 구조 형성에 필수적임을 보여줍니다.

3. 동적 시스템 분석을 통한 통찰

Raptor 를 통해 ViT 의 깊이를 동적 흐름으로 분석한 결과:

방향성 수렴 (Directional Convergence): 토큰 표현은 단위 구 (unit sphere) 상에서 클래스 의존적인 각도 basin 으로 수렴하며, 작은 섭동에 대해 자기 수정 (self-correcting) 특성을 보입니다.
토큰별 동역학:
- cls 토큰: 후반부에 급격한 방향 전환을 수행하며 글로벌 정보를 통합합니다.
- 패치 (patch) 토큰: 후반부에 강한 일관성 (coherence) 을 보이며 평균장 (mean-field) 효과처럼 평균 방향으로 빠르게 수렴합니다.
저랭크 수렴 (Low-Rank Collapse): 깊은 층으로 갈수록 층 간 업데이트 행렬의 랭크가 급격히 감소하여 저차원 끌개 (attractor) 로 수렴함을 확인했습니다.

4. 알고리즘적 복잡성 함의

Levin 복잡성: BRH 는 ViT 가 동일한 계산 비용 (runtime) 으로 더 짧은 알고리즘적 설명 (compact program) 을 가능하게 함을 의미합니다. 즉, ViT 는 파라미터 수를 줄이고 반복 횟수를 늘리는 방식으로 알고리즘적 단순성 (algorithmic simplicity) 을 추구합니다.

4. 의의 (Significance)

ViT 의 구조적 단순성 규명: 거대하고 복잡한 ViT 모델이 실제로는 소수의 재귀적 블록을 반복하여 작동한다는 것을 증명함으로써, 모델의 내부 작동 원리에 대한 새로운 관점을 제시했습니다.
해석 가능성 (Interpretability) 의 새로운 패러다임: ViT 를 동적 시스템으로 간주하고 분석하는 '동적 해석성 (Dynamical Interpretability)' 프레임워크를 제안했습니다. 이를 통해 토큰의 수렴 경로, 안정성, 위상 전이 등을 정량적으로 분석할 수 있게 되었습니다.
모델 효율성 및 안전성: 모델이 재귀 구조를 통해 작동한다는 사실은 모델 압축, 효율적인 추론, 그리고 모델의 내부 상태를 검증하고 설명하는 데 중요한 단서를 제공합니다. 특히 안전성 (safety) 이 중요한 분야에서 모델의 행동을 예측하고 검증하는 데 기여할 수 있습니다.
실용적 검증: DINOv2 와 같은 최신 파운데이션 모델에서도 이 가설이 유효함을 실험적으로 입증하여, 이론적 가설이 실제 대규모 모델에도 적용 가능함을 보여주었습니다.

결론적으로, 이 논문은 ViT 의 깊은 층 구조가 무작위적인 계층적 특징 추출이 아니라, 재귀적 동역학에 기반한 단순하고 효율적인 계산 프로그램으로 작동함을 증명하며, 이를 통해 AI 모델의 해석 가능성과 설계 원리에 대한 이해를 한 단계 끌어올렸습니다.