Block-Recurrent Dynamics in Vision Transformers

이 논문은 비전 트랜스포머 (ViT) 의 깊이가 재사용 가능한 소수의 블록으로 구성된 순환적 구조를 가진다는 '블록-순환 가설 (BRH)'을 제시하고, 이를 통해 모델의 동역학적 특성을 해석하는 새로운 프레임워크를 제안합니다.

Mozes Jacobs, Thomas Fel, Richard Hakim, Alessandra Brondetta, Demba Ba, T. Andy Keller

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 발견: "거대한 도서관은 사실 작은 책방 2~3 개를 반복해서 방문하는 것"

기존의 생각:
ViT 모델은 12 개, 24 개, 혹은 그 이상의 층 (Layer) 을 가지고 있습니다. 마치 12 개의 서로 다른 전문가 (층 1, 층 2, 층 3...) 가 순서대로 이미지를 분석한다고 생각했던 것입니다. 각 층은 서로 다른 일을 한다고 여겨졌습니다.

이 논문의 발견 (블록 순환 가설, BRH):
연구진이 자세히 보니, 이 12 개의 층은 사실 서로 다른 2~3 개의 전문가가 반복해서 일하는 것과 같았습니다.

  • 비유: 12 개의 층을 가진 ViT 는 마치 12 개의 서로 다른 방이 있는 건물이 아니라, 유사한 기능을 하는 23 개의 방 (블록) 을 46 번씩 반복해서 통과하는 구조였습니다.
  • 결과: 원래 12 개의 층으로 이미지를 분석하던 모델을, **단순히 2~3 개의 층을 반복해서 돌리는 모델 (Raptor)**로 바꿔도 성능이 거의 떨어지지 않았습니다. (DINOv2 라는 유명한 모델의 성능을 96% 이상 유지했습니다.)

2. 실험 방법: "유령을 쫓아내는 Raptor"

연구진은 이 가설을 증명하기 위해 **'Raptor'**라는 새로운 모델을 만들었습니다.

  • 상황: 원래의 거대한 ViT 모델 (선생님) 이 이미지를 보고 중간에 어떤 생각을 하는지 (내부 데이터) 를 모두 기록해 둡니다.
  • 작업: Raptor (학생) 는 이 기록을 보며, "내가 2~3 개의 작은 블록을 반복해서 돌리면, 선생님이 12 단계를 거칠 때와 똑같은 생각을 할 수 있을까?"를 학습합니다.
  • 결과: 놀랍게도 Raptor 는 선생님이 12 단계를 거칠 때와 **거의 똑같은 내부 생각 (표상)**을 만들어냈습니다. 이는 ViT 가 실제로는 복잡한 12 단계가 아니라, 간단한 2~3 단계의 반복으로 작동하고 있다는 강력한 증거입니다.

3. 왜 이런 일이 일어날까? (우연이 아니라 학습의 결과)

왜 이렇게 단순한 구조가 될까요? 연구진은 두 가지 이유를 찾았습니다.

  • 우연의 산물이 아님: 모델을 처음부터 학습시키지 않은 상태 (무작위 가중치) 에서는 이런 반복 구조가 뚜렷하지 않았습니다. 하지만 학습을 통해 모델이 스스로 "아, 이걸 반복해서 쓰는 게 더 효율적이구나!"라고 깨닫고 이런 구조를 만들었습니다.
  • 확률적 깊이 (Stochastic Depth) 의 역할: 학습 과정에서 일부 층을 임의로 건너뛰는 기법 (확률적 깊이) 을 사용하면, 모델은 더 강력한 반복 구조를 만들게 됩니다. 마치 "어떤 날은 쉬고, 어떤 날은 열심히 일해야 한다"는 규칙이 있으면, 오히려 핵심 업무 (반복 블록) 를 더 잘 정립하게 되는 것과 같습니다.

4. 모델의 마음속 풍경: "나침반과 나비"

연구진은 이 반복되는 과정을 '동역학 (Dynamics)'이라는 관점에서 분석했는데, 아주 흥미로운 현상을 발견했습니다.

  • 방향성 수렴 (나침반): 이미지의 특징을 나타내는 데이터는 층을 거칠수록 점점 특정 방향 (클래스, 예: '고양이'나 '자동차') 으로 모입니다. 마치 나침반의 바늘이 북극을 향해 흔들리다가 결국 멈추는 것처럼, 데이터의 방향이 안정화됩니다.
  • 토큰의 역할 (나비와 지도):
    • 패치 토큰 (이미지 조각들): 처음에는 각자 제멋대로 움직이지만, 나중에는 모두 같은 방향으로 움직이며 **군집 (Mean-field)**을 이룹니다. 마치 나비 떼가 한 방향으로 날아오르는 것처럼요.
    • CLS 토큰 (전체 요약자): 마지막 단계에서 갑자기 급격한 방향 전환을 하며 전체 이미지를 요약합니다.
  • 저차원 붕괴: 시간이 지날수록 데이터가 움직이는 공간이 점점 좁아져서, 매우 단순한 공간 (저차원) 으로 수렴합니다. 복잡한 100 차원의 공간이 결국 6 차원 정도로 줄어드는 것입니다.

5. 결론: "복잡함 속에 숨겨진 단순함"

이 연구의 가장 큰 메시지는 **"인공지능 모델은 우리가 생각하는 것보다 훨씬 단순하고 우아한 원리로 작동한다"**는 것입니다.

  • 간단한 비유: 거대한 ViT 모델은 마치 1,000 페이지짜리 두꺼운 책처럼 보이지만, 실제로는 2~3 페이지의 핵심 내용만 반복해서 읽는 것과 같습니다.
  • 의의: 이 발견은 AI 모델을 더 쉽게 이해하고 (해석 가능성), 더 효율적으로 만들 수 있는 길을 열어줍니다. 또한, AI 가 어떻게 '지능'을 획득하는지에 대한 새로운 통찰을 줍니다. 즉, AI 는 무작위로 복잡한 계산을 하는 것이 아니라, 효율적인 반복 패턴을 찾아내어 문제를 해결한다는 것입니다.

한 줄 요약:

"거대하고 복잡한 AI 모델은 사실 작은 블록을 몇 번만 반복해서 돌리면 해결할 수 있는 간단한 문제를, 마치 12 단계의 복잡한 공정을 거치는 것처럼 보여주고 있었을 뿐입니다. 우리는 이제 그 비밀을 찾아냈습니다."