Vision Transformers Need More Than Registers

이 논문은 비전 트랜스포머 (ViT) 의 아티팩트가 배경 패치를 활용한 게으른 집계 행동에서 비롯된다는 점을 규명하고, CLS 토큰에 패치 특징을 선택적으로 통합하는 방식을 제안하여 다양한 감독 하에서 성능을 일관되게 향상시켰습니다.

Cheng Shi, Yizhou Yu, Sibei Yang

게시일 2026-02-27
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "사진을 보는 AI 의 나쁜 습관"

상상해 보세요. AI 가 사진을 보고 "이건 강아지 사진이야!"라고 맞추는 시험을 치고 있습니다.

1. 문제: "나른한 AI 의 지름길" (Lazy Aggregation)

기존의 ViT 모델은 강아지 사진을 볼 때, 강아지 자체를 제대로 보지 않고 주변 배경 (바닥, 나무, 하늘) 을 보며 답을 맞춥니다.

  • 왜 그럴까요? AI 는 "강아지"라는 정답을 빨리 맞추기 위해, 강아지 주변에 있는 배경 정보들을 무작위로 섞어서 "아, 이 배경은 강아지 사진에 자주 나오니까 강아지겠지!"라고 **지름길 (Shortcut)**을 씁니다.
  • 결과: 강아지 사진이 맞긴 하지만, AI 가 실제로 '강아지'가 있는 곳을 정확히 지적하지 못합니다. 마치 강아지 사진에서 강아지 얼굴은 흐릿하고, 배경만 선명하게 보이는 것과 같습니다.

2. 발견: "배경이 주인공이 된 이유"

연구진은 이 현상을 분석하며 놀라운 사실을 발견했습니다.

  • **이미지 전체를 한 번에 보는 능력 (Global Attention)**이 너무 강력해서, AI 는 강아지 (전경) 보다는 훨씬 많은 배경 (후경) 조각들을 쉽게 흡수해버립니다.
  • 마치 수천 명의 군중 (배경) 소리한 명의 강아지 (전경) 소리보다 훨씬 크게 들리는 것처럼, AI 는 배경 소리에 압도되어 강아지 소리를 무시해버립니다.
  • 이 때문에 AI 는 "배경이 강해서 강아지 사진이구나"라고 착각하며, **배경 조각들이 마치 강아지인 것처럼 잘못된 신호 (High-norm tokens)**를 보내게 됩니다.

3. 해결책: "LazyStrike (게으름 퇴치기)"

이 논문은 이 나쁜 습관을 고치기 위해 **'LazyStrike (게으름 퇴치기)'**라는 새로운 방법을 제안합니다.

  • 핵심 아이디어: "배경 소리는 조용히 하고, 강아지 소리만 크게 들어라!"
  • 어떻게 작동하나요?
    1. AI 가 사진을 조각 (패치) 으로 나눕니다.
    2. 각 조각이 얼마나 안정적이고 일관된 의미를 가지고 있는지 분석합니다. (배경은 너무 복잡하고 변덕스럽지만, 강아지는 일관된 모양을 가집니다.)
    3. **가장 안정적이고 중요한 조각들 (강아지)**만 골라내어 AI 의 '주인공 (CLS 토큰)'에게 전달합니다.
    4. 그 결과, AI 는 더 이상 배경에 의존하지 않고 **정말 중요한 대상 (강아지)**에 집중하게 됩니다.

4. 성과: "어떤 시험에서도 1 등"

이 방법을 적용하자 놀라운 일이 일어났습니다.

  • 배경 잡음 제거: AI 가 배경을 잘못 인식하는 버그가 사라졌습니다.
  • 범용성: 강아지를 찾는 것뿐만 아니라, 물체 찾기, 이미지 자르기, 텍스트로 이미지 설명하기 등 다양한 작업에서 기존 모델보다 훨씬 뛰어난 성능을 보였습니다.
  • 간단함: 복잡한 구조를 바꾸지 않고, AI 가 정보를 모으는 방식만 조금 수정했을 뿐입니다.

💡 한 줄 요약

"기존 AI 는 사진을 볼 때 배경에 속아 넘어가 강아지를 못 찾았지만, 이 논문은 '배경 소리를 줄이고 진짜 대상 소리만 듣게' 만들어 AI 를 똑똑하게 만들었습니다."

이 연구는 AI 가 단순히 정답을 맞추는 것을 넘어, 그 정답을 맞췄는지 (어디를 보았는지) 를 정확하게 이해할 수 있게 해준다는 점에서 매우 중요합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →