Each language version is independently generated for its own context, not a direct translation.

📸 "주변을 잘 보는" 비전 트랜스포머 (LocAtViT) 설명

이 논문은 컴퓨터가 이미지를 보는 방식을 더 똑똑하게 만든 새로운 방법, LocAtViT에 대해 이야기합니다. 쉽게 말해, **"전체적인 큰 그림을 보면서도, 주변 디테일도 놓치지 않는 눈"**을 가진 인공지능을 개발한 거죠.

자, 이제 이 복잡한 기술을 일상적인 비유로 쉽게 풀어드릴게요.

1. 문제: "너무 멀리만 보는 눈" (기존 ViT 의 한계)

기존의 '비전 트랜스포머 (Vision Transformer, ViT)'라는 인공지능은 사진을 볼 때 모든 부분을 한눈에 동시에 보려고 합니다. 마치 거대한 헬리콥터에서 내려다보는 것처럼 말이죠.

장점: "저기 저건 학교 버스네!"라고 전체적인 상황을 빠르게 파악하는 분류 (Classification) 작업에는 아주 뛰어납니다.
단점: 하지만 세그멘테이션 (Segmentation) 같은 작업, 즉 "학교 버스의 바퀴는 어디고, 창문은 어디지?"라고 정확한 위치와 디테일을 찾아내는 작업에서는 약점이 있습니다.
- 비유: 헬리콥터 조종사는 "저기 버스 있네!"라고 외칠 수는 있어도, 버스의 바퀴 하나하나를 가리키며 "이 바퀴는 찌그러졌어, 저 바퀴는 멀쩡해"라고 말하기는 어렵습니다. 너무 멀리서 보니까 디테일이 흐릿해지거든요.

2. 해결책: "주변을 잘 살피는 눈" (LocAtViT)

저자들은 이 문제를 해결하기 위해 두 가지 간단한 장치를 추가했습니다. 이를 **LocAt (Locality-Attending)**이라고 부릅니다.

① 가우시안 커널: "나만의 친밀한 친구圈" (GAug)

기존의 AI 는 모든 픽셀 (이미지 조각) 이 서로 평등하게 대화합니다. 하지만 LocAtViT 는 **"내 바로 옆에 있는 친구 (이웃 픽셀) 에게는 더 귀 기울여라"**라고 명령합니다.

비유: 회의실 (이미지) 에서 한 사람이 발표할 때, 기존 방식은 모든 사람이 동시에 다들 다들 이야기합니다. 하지만 LocAtViT 는 "내 바로 옆에 앉은 사람에게는 더 크게, 멀리 있는 사람에게는 조금 더 작게" 목소리를 조절하게 합니다.
효과: 이렇게 하면 AI 는 "학교 버스"라는 큰 개념을 알면서도, "버스 옆의 나무"나 "바퀴" 같은 주변의 미세한 디테일도 잘 기억하게 됩니다.

② 패치 표현 정제 (PRR): "모두의 목소리를 듣는 마이크"

기존 AI 는 최종 답을 낼 때, 모든 정보를 하나로 뭉쳐서 (평균 내서) 정답만 냅니다. 하지만 세그멘테이션에서는 각각의 픽셀이 가진 고유한 정보가 중요합니다.

비유: 시험을 볼 때, 기존 방식은 "전체 점수 평균"만 보고 합격 여부를 결정합니다. 하지만 LocAtViT 는 **"각 학생 (각 픽셀) 이 어떤 문제를 잘 풀었는지"**를 따로 기록하고, 그 정보를 바탕으로 최종 결정을 내립니다.
효과: 이렇게 하면 AI 는 "학교 버스"라는 전체 정답을 내면서도, "여기는 버스, 저기는 배경"이라고 정확하게 구분할 수 있게 됩니다.

3. 실험 결과: "기존 실력을 해치지 않고 더 잘하게 됨"

이 새로운 방법 (LocAtViT) 을 적용한 결과는 놀라웠습니다.

분류 능력 (전체 보기): 여전히 "저건 학교 버스다!"라고 맞추는 능력은 그대로 유지되거나 오히려 더 좋아졌습니다. (헬리콥터 조종사 역할은 그대로임)
세그멘테이션 능력 (디테일 찾기): 버스의 바퀴, 창문, 배경의 나무 등을 정확히 구분하는 능력은 6%~4% 이상이나 크게 향상되었습니다. (디테일 조종사 역할이 추가됨)
비용: 이 모든 게 가능해진 건, 기존 모델에 아주 작은 장치만 추가해서입니다. 컴퓨터가 더 무겁게 돌아가는 건 거의 없습니다.

4. 결론: 왜 이것이 중요한가요?

이 연구는 **"기존에 잘 작동하던 모델을 완전히 뜯어고치지 않고, 작은 수정만으로도 더 똑똑하게 만들 수 있다"**는 것을 보여줍니다.

핵심 메시지: "전체적인 큰 그림 (Global)"과 "주변의 작은 디테일 (Local)"은 서로 충돌하는 것이 아니라, 함께 존재할 수 있다는 것입니다.
일상적인 비유: 마치 우리가 친구를 볼 때, "그 친구는 키가 크고 웃음이 예쁘다 (전체)"라고 보는 동시에, "그 친구는 오늘 코가 살짝 붉어졌네 (디테일)"라고도 볼 수 있는 것과 같습니다. LocAtViT 는 AI 에게 이런 양면적인 시선을 가르쳐 준 것입니다.

이 기술은 의료 영상 (종양의 정확한 위치 찾기), 자율 주행 (보행자와 차도의 정확한 구분) 등 정밀한 위치 파악이 필요한 모든 분야에 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

ViT 의 성공과 한계: 비전 트랜스포머 (ViT) 는 전역 자기 주의 (Global Self-Attention) 메커니즘을 통해 장거리 의존성을 포착하여 이미지 분류에서 뛰어난 성과를 거두었습니다. 그러나 이러한 전역적 집중은 세밀한 공간적 디테일 (fine-grained spatial details) 을 희석시키는 경향이 있어, 세그멘테이션과 같은 밀집 예측 작업에는 불리합니다.
공간 정보의 상실: 분류 목적으로 학습된 ViT 에서 패치 토큰 (patch tokens) 은 점차 [CLS] 토큰과 정렬되어 국소적인 구조를 잃어버리는 경향이 있습니다. 이는 분류 헤드 (Classification Head) 로 가는 그라디언드가 [CLS] 토큰에만 집중되고, 공간 패치 토큰에는 직접적인 감독 신호가 전달되지 않기 때문입니다.
기존 방법의 문제: 기존에는 계층적 구조를 도입하거나 컨볼루션을 혼합하는 등 아키텍처를 대폭 변경하여 이 문제를 해결하려 했습니다. 하지만 이는 복잡한 설계와 기존 ViT 와의 호환성 저하를 초래합니다.

2. 제안 방법 (Methodology)

저자들은 기존 ViT 아키텍처와 학습 방식을 크게 변경하지 않고 적용 가능한 두 가지 모듈형 구성 요소를 제안합니다. 이를 합쳐 **LocAt (Locality-Attending)**이라고 부릅니다.

A. 가우시안 증강 주의 (Gaussian-Augmented Attention, GAug)

개념: 자기 주의 (Self-Attention) 의 로짓 (logits) 에 학습 가능한 가우시안 커널을 추가하여, 각 토큰이 주변 이웃 패치에 더 주의를 기울이도록 유도합니다.
구현:
- 각 패치 $p$ 의 위치를 중심으로 가우시안 커널 $G$ 를 생성합니다. 이는 거리가 멀어질수록 영향력이 부드럽게 감소하도록 설계되었습니다.
- 가우시안 커널의 분산 (variance, $\sigma^2$ ) 은 고정된 값이 아니라, 쿼리 벡터 ( $q_{sp}$ ) 를 통해 학습 가능한 2D 벡터로 예측됩니다. 이는 각 패치가 상황에 따라 다른 수용 영역 (receptive field) 을 가질 수 있게 합니다.
- 주의 로짓에 가우시안 보정 행렬 $S$ 를 더합니다: $Z = \text{softmax}(\frac{qk^T}{\sqrt{d}} + S)v$ .
- $S$ 는 쿼리별 스케일링 인자 $\alpha$ 를 통해 원본 주의 로짓과 가우시안 사전 지식 사이의 균형을 조절합니다.
효과: 전역적 상호작용을 유지하면서도 명시적인 국소성 (locality) 유도를 통해 세밀한 공간 정보를 보존합니다.

B. 패치 표현 정제 (Patch Representation Refinement, PRR)

문제 인식: 기존 ViT 는 [CLS] 토큰의 출력만 손실 함수에 사용하므로, 최종 층의 패치 토큰 출력은 그라디언드 흐름이 약해 의미 있는 표현을 학습하지 못합니다. 반면, Global Average Pooling (GAP) 을 사용하면 모든 패치에 균일한 그라디언드가 흐르게 되어 배경 등 불필요한 영역까지 학습하게 되는 문제가 발생합니다.
해결책: 분류 헤드 직전에 파라미터가 없는 (parameter-free) 멀티헤드 자기 주의 레이어를 추가합니다.
- 토큰들을 재배열하여 모든 패치 위치 간의 정보를 비균일하게 집계 (aggregate) 합니다.
- 이 과정은 새로운 파라미터를 추가하지 않으면서, 패치 토큰에 직접적인 그라디언드 흐름을 보장하고 공간적 표현의 다양성을 유지합니다.
효과: [CLS] 토큰은 분류를 위해, 패치 토큰은 세그멘테이션을 위해 최적화된 표현을 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

모듈형 아키텍처: ViT 의 핵심 구조를 변경하지 않고 GAug 과 PRR 만을 추가하여 기존 모델에 쉽게 적용 가능합니다.
분류와 세그멘테이션의 동시 향상: 이미지 분류 성능을 희생하지 않으면서 (오히려 향상됨), 세그멘테이션 성능을 대폭 개선합니다.
기존 모델과의 호환성: ViT, Swin Transformer, RegViT, RoPEViT 등 다양한 백본에 적용 가능하며, 자기 지도 학습 (Self-supervised, DINO) 환경에서도 유효함이 입증되었습니다.
간단한 설계: 복잡한 계층 구조나 컨볼루션 혼합 없이, 주의 메커니즘과 토큰 집계 방식의 미세 조정으로 문제를 해결했습니다.

4. 실험 결과 (Results)

세그멘테이션 성능:
- ADE20K: ViT Tiny 기준 6.17%p, ViT Base 기준 4.24%p의 mIoU 향상.
- PASCAL Context: ViT Tiny 기준 4.86%p, ViT Base 기준 2.25%p 향상.
- COCO Stuff: ViT Tiny 기준 5.86%p, ViT Base 기준 3.19%p 향상.
- Swin Transformer와 같은 강력한 베이스라인 모델에서도 성능 향상을 보였습니다.
분류 성능 (ImageNet-1K):
- 세그멘테이션을 위해 학습 방식을 변경하지 않았음에도, Top-1 정확도가 ViT Tiny 에서 1.55%p, Base 에서 1.32%p 향상되었습니다.
- CIFAR-100 및 mini-ImageNet 과 같은 소규모 데이터셋에서도 3~7%p 의 분류 정확도 향상을 보였습니다.
자기 지도 학습 (Self-Supervised):
- DINO 프레임워크에 적용 시, 선형 분류 및 k-NN 분류 성능이 모두 향상되었습니다.
- Hummingbird 평가 (프리징된 특징을 이용한 밀집 근접 이웃 검색) 에서도 공간 표현의 질이 개선됨을 확인했습니다.
정성적 분석:
- 주의 맵 (Attention Map) 분석 결과, ViT 는 전역적으로 흩어진 주의를 보이는 반면, LocAtViT 는 객체의 핵심 특징과 배경 구조에 더 집중적이고 일관된 주의를 기울이는 것을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

기초 모델 (Foundation Models) 에의 시사점: CLIP, DINO 등 대규모 기초 모델은 주로 ViT 백본을 사용하며, 이들은 분류 목적으로 학습되어 공간적 세밀함이 부족합니다. LocAtViT 는 아키텍처를 복잡하게 변경하지 않고도 이러한 기초 모델이 밀집 예측 작업 (세그멘테이션, 검출 등) 에도 효과적으로 활용될 수 있도록 합니다.
효율성: 추가적인 파라미터는 매우 적으며 (Base 기준 약 0.003% 증가), 계산 비용 (FLOPs) 도 거의 증가하지 않습니다.
미래 지향성: 이 연구는 "분류 목적의 사전 학습 (Pretraining) 이 밀집 예측을 고려하여 설계되어야 한다"는 관점을 제시하며, 향후 ViT 기반 모델 개발에 있어 국소성과 전역성의 균형을 맞추는 중요한 방향성을 제시합니다.

요약하자면, LocAtViT는 ViT 의 전역적 주의 메커니즘에 가우시안 기반의 국소성 편향을 도입하고, 패치 토큰의 그라디언드 흐름을 개선함으로써, 분류 성능을 유지하면서 세그멘테이션 성능을 획기적으로 높인 경량화된 솔루션입니다.

Locality-Attending Vision Transformer