Vision Transformers Need More Than Registers

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "사진을 보는 AI 의 나쁜 습관"

상상해 보세요. AI 가 사진을 보고 "이건 강아지 사진이야!"라고 맞추는 시험을 치고 있습니다.

1. 문제: "나른한 AI 의 지름길" (Lazy Aggregation)

기존의 ViT 모델은 강아지 사진을 볼 때, 강아지 자체를 제대로 보지 않고 주변 배경 (바닥, 나무, 하늘) 을 보며 답을 맞춥니다.

왜 그럴까요? AI 는 "강아지"라는 정답을 빨리 맞추기 위해, 강아지 주변에 있는 배경 정보들을 무작위로 섞어서 "아, 이 배경은 강아지 사진에 자주 나오니까 강아지겠지!"라고 **지름길 (Shortcut)**을 씁니다.
결과: 강아지 사진이 맞긴 하지만, AI 가 실제로 '강아지'가 있는 곳을 정확히 지적하지 못합니다. 마치 강아지 사진에서 강아지 얼굴은 흐릿하고, 배경만 선명하게 보이는 것과 같습니다.

2. 발견: "배경이 주인공이 된 이유"

연구진은 이 현상을 분석하며 놀라운 사실을 발견했습니다.

**이미지 전체를 한 번에 보는 능력 (Global Attention)**이 너무 강력해서, AI 는 강아지 (전경) 보다는 훨씬 많은 배경 (후경) 조각들을 쉽게 흡수해버립니다.
마치 수천 명의 군중 (배경) 소리가 한 명의 강아지 (전경) 소리보다 훨씬 크게 들리는 것처럼, AI 는 배경 소리에 압도되어 강아지 소리를 무시해버립니다.
이 때문에 AI 는 "배경이 강해서 강아지 사진이구나"라고 착각하며, **배경 조각들이 마치 강아지인 것처럼 잘못된 신호 (High-norm tokens)**를 보내게 됩니다.

3. 해결책: "LazyStrike (게으름 퇴치기)"

이 논문은 이 나쁜 습관을 고치기 위해 **'LazyStrike (게으름 퇴치기)'**라는 새로운 방법을 제안합니다.

핵심 아이디어: "배경 소리는 조용히 하고, 강아지 소리만 크게 들어라!"
어떻게 작동하나요?
1. AI 가 사진을 조각 (패치) 으로 나눕니다.
2. 각 조각이 얼마나 안정적이고 일관된 의미를 가지고 있는지 분석합니다. (배경은 너무 복잡하고 변덕스럽지만, 강아지는 일관된 모양을 가집니다.)
3. **가장 안정적이고 중요한 조각들 (강아지)**만 골라내어 AI 의 '주인공 (CLS 토큰)'에게 전달합니다.
4. 그 결과, AI 는 더 이상 배경에 의존하지 않고 **정말 중요한 대상 (강아지)**에 집중하게 됩니다.

4. 성과: "어떤 시험에서도 1 등"

이 방법을 적용하자 놀라운 일이 일어났습니다.

배경 잡음 제거: AI 가 배경을 잘못 인식하는 버그가 사라졌습니다.
범용성: 강아지를 찾는 것뿐만 아니라, 물체 찾기, 이미지 자르기, 텍스트로 이미지 설명하기 등 다양한 작업에서 기존 모델보다 훨씬 뛰어난 성능을 보였습니다.
간단함: 복잡한 구조를 바꾸지 않고, AI 가 정보를 모으는 방식만 조금 수정했을 뿐입니다.

💡 한 줄 요약

"기존 AI 는 사진을 볼 때 배경에 속아 넘어가 강아지를 못 찾았지만, 이 논문은 '배경 소리를 줄이고 진짜 대상 소리만 듣게' 만들어 AI 를 똑똑하게 만들었습니다."

이 연구는 AI 가 단순히 정답을 맞추는 것을 넘어, 왜 그 정답을 맞췄는지 (어디를 보았는지) 를 정확하게 이해할 수 있게 해준다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

비전 트랜스포머 (ViT) 는 대규모 데이터로 사전 학습되면 다양한 다운스트림 태스크에 대한 범용 표현을 제공합니다. 그러나 최근 연구들은 ViT 가 밀도 있는 특징 (dense features) 이 필요한 태스크에서 심각한 아티팩트 (artifacts) 를 보인다는 것을 발견했습니다.

현상:
- 감시 학습 (Supervised): CLIP 과 같은 텍스트 기반 모델은 오픈 보카불러리 태스크에서 텍스트와 정렬되지 않은 밀도 있는 특징을 생성합니다.
- 자기 감시 학습 (Self-supervised): DINO 와 같은 모델은 특징 맵에 '고노름 토큰 (high-norm tokens)'이라는 아티팩트를 생성하여 객체 위치 파악 (localization) 을 방해합니다.
- 공통점: 이러한 현상은 다양한 감독 방식 (라벨, 텍스트, 자기 감시) 하에서 공통적으로 발생하며, 기존에 제안된 '레지스터 (Register)' 토큰과 같은 해결책은 표면적인 증상만 완화할 뿐 근본 원인을 해결하지 못합니다.
근본 원인 (Lazy Aggregation):
- 저자들은 ViT 가 게으른 집계 (Lazy Aggregation) 행동을 보인다고 결론지었습니다.
- 이미지 수준의 감독 (Coarse-grained supervision) 만 제공받고 전역적 의존성 (Global attention) 을 가진 ViT 는, 실제 전경 (foreground) 객체 대신 전경과 무관한 배경 패치 (background patches) 를 활용하여 글로벌 의미 (global semantics) 를 표현하는 '단순한 경로 (shortcut)'를 학습합니다.
- 이는 배경 패치가 이미지 내의 압도적인 비율을 차지하기 때문에, 모델이 전경 정보를 배경으로 확산시켜 손실을 최소화하는 방향으로 학습하기 때문입니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 LaSt-ViT (LazyStrike ViT) 라는 새로운 아키텍처를 제안했습니다. 이는 CLS 토큰이 전경 패치에 집중하도록 유도하는 주파수 인식형 선택적 집계 (Frequency-aware Selective Aggregation) 메커니즘을 도입합니다.

핵심 분석 도구

Patch Score: CLS 토큰과 각 패치 특징 간의 유사도 (Cosine Similarity).
Point-in-Box (PiB): 가장 높은 Patch Score 를 가진 패치가 주석된 전경 영역 (Bounding Box) 안에 있는 비율. ViT 는 ConvNet 에 비해 PiB 가 현저히 낮아 배경에 높은 점수를 부여함을 확인했습니다.

LaSt-ViT 의 작동 원리

안정성 점수 (Stability Score) 계산:
- 자연 이미지에서 전경 신호는 채널 차원에서 더 균일한 의미 (semantic homogeneity) 를 가지며, 배경은 더 높은 다양성을 가집니다.
- 패치 특징의 채널 차원에서 1 차원 푸리에 변환 (1D FFT) 을 수행하고, 저주파 통과 필터 (Gaussian weight) 를 적용하여 저주파 성분을 유지합니다.
- 원래 특징과 저주파 필터링된 특징 간의 차이를 기반으로 채널별 안정성 점수 (Stability Score) 를 계산합니다. 전경 패치는 이 점수가 높고, 배경 패치는 낮습니다.
채널별 Top-K 풀링 (Channel-wise Top-K Pooling):
- 각 채널 (channel) 마다 안정성 점수가 가장 높은 $K$ 개의 패치 (토큰) 만을 선택합니다.
- 선택된 패치들의 평균을 계산하여 CLS 토큰을 업데이트합니다.
- 이를 통해 CLS 토큰이 배경 패치에 의해 오염되는 것을 방지하고, 전경 패치에 기반한 의미 있는 글로벌 표현을 학습하게 됩니다.
투표 수 (Vote Count):
- 모든 채널에서 선택된 패치들의 횟수를 세어, 전경에 기여도가 높은 패치를 식별합니다.

3. 주요 기여 (Key Contributions)

근본 원인 규명: Patch Score 와 Point-in-Box (PiB) 지표를 통해 ViT 의 아티팩트 원인이 '배경 우세 편향 (background-dominant bias)'이며, 이는 학습 초기부터 발생하여 지속된다는 것을 체계적으로 분석했습니다.
가설 제시: '거친 의미 감독 (Coarse-grained supervision)'과 '전역적 의존성 (Global dependencies)'의 상호작용이 ViT 로 하여금 전경 대신 배경을 활용하는 게으른 집계 (Lazy Aggregation) 를 하도록 유도한다는 가설을 정립하고 실험적으로 검증했습니다.
LaSt-ViT 제안: 복잡한 아키텍처 변경이나 추가적인 미세 조정 (fine-tuning) 없이, 사전 학습 단계에서 CLS 토큰을 전경 영역에 고정시키는 간단하고 효과적인 선택적 집계 방식을 제안했습니다.
광범위한 성능 향상: 라벨, 텍스트, 자기 감시 등 3 가지 다른 감독 방식 하에서 12 개의 벤치마크 (객체 발견, 시맨틱/인스턴스 분할, 오픈 보카불러리 탐지 등) 에서 일관된 성능 개선을 입증했습니다.

4. 실험 결과 (Results)

아티팩트 제거:
- LaSt-ViT 를 적용하면 '고노름 토큰 (high-norm tokens)' 현상이 사라지고, PiB 점수가 크게 향상되어 ResNet 수준에 근접합니다.
- ViT-B/16 모델에서 PiB 점수가 42.7 에서 55.1 로, DINO-v1 은 44.5 에서 69.7 로 크게 증가했습니다.
다운스트림 태스크 성능:
- 시맨틱 분할 (Zero-shot): CLIP 기반 모델에 적용 시, Pascal VOC 에서 mIoU 가 49.0% → 75.0% 로 급격히 향상되었습니다.
- 오픈 보카불러리 탐지: COCO 및 LVIS 데이터셋에서 기존 ViT 기반 모델 대비 Novel 클래스 탐지 성능이 크게 개선되었습니다 (예: ViT-B/16 에서 AP50box novel 17.5% → 33.3%).
- 객체 발견 (Unsupervised Object Discovery): DINO 기반 모델보다 CorLoc 점수가 높으며, 계산 효율성 (FPS) 도 우수합니다.
일반화 능력:
- 기존 방법들 (Maxpool, Attention-pool 등) 이나 레지스터 토큰 추가 방식보다 훨씬 우수한 성능을 보였습니다.
- 분류 정확도 (ImageNet Top-1) 를 희생하지 않으면서도 밀도 있는 특징의 정렬성을 크게 개선했습니다.

5. 의의 및 결론 (Significance)

이 논문은 ViT 의 내부 동작 원리에 대한 새로운 관점을 제시합니다.

레지스터 이상의 필요성: 기존 연구들이 ViT 의 아티팩트를 해결하기 위해 '레지스터 (Register)' 토큰을 도입했지만, 이는 근본적인 '게으른 집계' 행동을 해결하지 못함을 지적했습니다.
학습 역학의 통찰: ViT 가 전경 대신 배경을 학습하는 경향은 모델의 구조적 결함이 아니라, 전역 어텐션과 이미지 수준 손실 함수의 조합으로 인한 최적화 경로의 선택임을 밝혔습니다.
실용적 가치: 복잡한 수정 없이도 ViT 가 다양한 감독 방식 하에서 전경에 집중하는 능력을 갖추게 하여, 객체 탐지, 분할, 오픈 보카불러리 태스크 등 다양한 응용 분야에서 ViT 의 실용성을 크게 높였습니다.

결론적으로, LaSt-ViT는 ViT 가 배경 노이즈에 의존하는 것을 방지하고 전경 의미에 집중하도록 유도함으로써, 비전 트랜스포머가 가진 잠재력을 최대한 끌어올리는 강력한 해결책을 제시합니다.