Soft Equivariance Regularization for Invariant Self-Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "사진관과 거울" 이야기

컴퓨터가 사진을 학습할 때, 보통 두 가지 태도를 취합니다.

불변성 (Invariance): "이 사진이 비가 오든, 햇빛이 쨍쨍하든, 약간 잘려 있든 같은 고양이야!"라고 생각하는 능력입니다. (예: MoCo, DINO 같은 기존 기술)
- 장점: 사물을 정확히 분류하는 데 좋습니다.
- 단점: "고양이가 왼쪽을 보고 있든 오른쪽을 보고 있든 똑같다"고만 생각하면, 방향이나 모양의 미세한 변화를 무시하게 되어, 사진이 찌그러지거나 회전했을 때 헷갈릴 수 있습니다.
공변성 (Equivariance): "사진이 90 도 회전하면, 내 머릿속에서도 고양이 이미지가 90 도 회전해서 기억해야 해!"라고 생각하는 능력입니다.
- 장점: 사진이 어떻게 변형되든 그 변화의 규칙을 이해하므로, 사진이 왜곡되거나 회전해도 잘 대처합니다.
- 단점: 너무 변형에 민감하게 반응하면, 사물 자체를 식별하는 데 방해가 될 수 있습니다.

🤔 기존 방법의 문제점: "모든 것을 한 번에 하려고 했다"

기존 연구자들은 "불변성"과 "공변성"을 모두 가르치려고 했습니다. 하지만 문제는 어디서 가르치느냐에 있었습니다.

기존 방법들은 두 가지를 모두 **최종 결론 (마지막 단계)**에서 동시에 가르쳤습니다. 마치 학생에게 "시험지 마지막 장에 답을 쓸 때, '이건 고양이야'라고 쓰되, '고양이가 회전했으면 그 회전 각도도 같이 써야 해'라고 동시에 시킨 것과 같습니다.

결과: 학생 (AI) 이 혼란스러워합니다.

회전 각도를 정확히 맞추려고 하면, "고양이"라는 정답을 맞추는 실수가 늘어납니다.
반대로 "고양이"만 맞추려고 하면, 회전 같은 기하학적 변화를 무시하게 됩니다.

✨ 이 논문의 해결책: "소프트 에퀴바리언스 정규화 (SER)"

저자들은 **"불변성과 공변성을 가르치는 장소를 분리하자!"**는 아이디어를 냈습니다. 이것이 바로 SER의 핵심입니다.

1. 중간 단계에서 '공변성'을 훈련하세요 (요리 준비 과정)

사진을 처리하는 AI 는 여러 단계를 거칩니다.

초기 단계: 원본 사진.
중간 단계: 사진의 특징 (털, 귀, 눈 등) 을 추출하는 과정. (이때는 사진이 여전히 격자 모양의 픽셀로 남아있습니다.)
최종 단계: "고양이"라는 하나의 결론을 내리는 단계.

SER 는 중간 단계에서 "공변성"을 가르칩니다.

비유: 요리사가 재료를 다듬는 준비 과정에서, "채소가 회전하면 그 모양도 회전해서 다듬어야 해"라고 연습하는 것입니다. 이때는 재료의 정확한 모양 (공간적 구조) 을 유지하고 있기 때문에 회전이나 뒤집기를 연습하기 좋습니다.

2. 최종 단계에서는 '불변성'만 유지하세요 (결론 내리기)

최종 결론을 내리는 단계에서는 기존 방식대로 "무조건 고양이가 고양이로 보이게"만 가르칩니다.

비유: 요리가 완성된 접시를 손님에게 줄 때는, "이건 맛있는 요리야"라고만 말하면 됩니다. 손님이 접시를 회전시켜도 요리의 맛은 변하지 않으니까요.

3. "소프트"한 규칙

이 방법은 AI 에게 "반드시 정확히 회전해야 해!"라고 강제로 시키지 않습니다. 대신 "회전했을 때의 변화가 논리적으로 연결되도록 부드럽게 도와줘"라고 요청합니다. 그래서 '소프트 (Soft)'라고 부릅니다.

🚀 왜 이 방법이 더 좋은가요?

이 방법을 적용한 결과, AI 는 다음과 같은 놀라운 능력을 갖게 되었습니다.

더 똑똑한 분류: "고양이"를 구별하는 정확도가 기존 방법보다 높아졌습니다. (ImageNet 데이터에서 0.84% 향상)
튼튼한 방어력: 사진이 흐릿해지거나 (ImageNet-C), 회전하거나 찌그러지는 (ImageNet-P) 상황에서도 여전히 잘 인식합니다. 마치 튼튼한 방패를 가진 것처럼요.
공간 감각 향상: 사진 속 사물의 위치를 파악하는 능력 (예: 물체 감지) 이 크게 좋아졌습니다.
비용 절감: 별도의 복잡한 장치를 추가하지 않고, 기존 학습 방식에 아주 작은 비용 (약 1% 증가) 만 더하면 됩니다.

💡 요약: "층을 나누어 가르치는 지혜"

이 논문의 핵심 메시지는 **"한 번에 모든 것을 가르치려 하지 말고, 각 단계에 맞는 교육을 하라"**는 것입니다.

중간 단계 (재료 준비): "회전, 뒤집기, 크기 조절" 같은 기하학적 변화를 이해하도록 훈련 (공변성).
최종 단계 (결론): "무엇인지"만 정확히 식별하도록 훈련 (불변성).

이처럼 **학습의 층 (Layer) 을 분리 (Decoupling)**함으로써, AI 는 사물을 더 정확하게, 그리고 더 튼튼하게 인식할 수 있게 되었습니다. 이는 앞으로 더 똑똑한 인공지능을 만드는 중요한 설계 원칙이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

자기지도 학습 (Self-Supervised Learning, SSL) 은 일반적으로 의미 보존 증강 (랜덤 크롭, 광학적 왜곡 등) 에 불변 (Invariant) 인 표현을 학습하도록 설계됩니다. 이는 객체 인식 (Recognition) 에 매우 효과적이지만, **기하학적 왜곡에 대한 강인성 (Robustness)**이나 **공간적 민감도가 필요한 전이 학습 (Spatially sensitive transfer)**에는 한계가 있을 수 있습니다. 불변성은 변환에 따른 구조적 정보 (방향, 반사, 스케일 등) 를 억제하기 때문입니다.

이를 보완하기 위해 최근 연구들은 불변성 (Invariance) 과 공변성 (Equivariance) 을 결합하려는 시도를 하고 있습니다. 그러나 기존 방법들은 주로 **최종 표현 (Final Representation)**에 두 가지 목표를 동시에 부과하는 문제가 있었습니다.

문제점: 최종 표현은 보통 공간적으로 축소 (Spatially collapsed, 예: ViT 의 [CLS] 토큰) 되어 있어, 공간적 군 작용 (Spatial group actions) 과 잘 맞지 않습니다.
경험적 관찰: 저자들은 공변성 정규화를 더 깊은 층 (최종 층) 으로 밀어붙일수록 공변성 점수는 높아지지만, ImageNet-1k 선형 평가 (Linear Evaluation) 정확도는 오히려 떨어진다는 Trade-off를 발견했습니다.

2. 제안 방법: Soft Equivariance Regularization (SER)

이러한 Trade-off 를 해결하기 위해 저자들은 SER를 제안합니다. SER 는 불변성과 공변성을 서로 다른 계층에서 부과하는 레이어 디커플링 (Layer-decoupled) 설계를 핵심으로 합니다.

핵심 메커니즘

레이어 디커플링 (Layer Decoupling):
- 최종 임베딩 (Final Embedding): 기존 SSL 목적 함수 (MoCo-v3, DINO, Barlow Twins 등) 를 그대로 사용하여 불변성을 학습합니다.
- 중간 공간 표현 (Intermediate Spatial Token Map): ViT 의 중간 계층 (예: 3 번째 트랜스포머 블록) 에서 공변성을 부드럽게 (Softly) 정규화합니다. 이 단계에서는 공간적 토큰 맵의 격자 구조가 유지되므로 기하학적 작용을 적용하기 적합합니다.
분석적 군 작용 (Analytic Feature-space Group Actions):
- 별도의 변환 예측 헤드 (Transformation-prediction head) 나 보조 모듈을 추가하지 않습니다.
- 입력 공간의 기하학적 변환 (90 도 회전, 수평 반전, 비등방성 스케일링 등) 을 특징 공간 (Feature space) 에서 직접 분석적으로 정의된 군 작용 $\rho_g$ 로 매핑하여 적용합니다.
- 예를 들어, 회전은 토큰의 순열 (Permutation) 로, 스케일링은 결정론적 그리드 리샘플링으로 구현됩니다.
증강 정책 및 배치 분할 (Augmentation Policy & Batch Partitioning):
- 일반적인 SSL 증강 (랜덤 크롭 포함) 은 역변환이 불가능하여 군 (Group) 을 형성하지 못합니다.
- 따라서 미니배치를 두 부분으로 나눕니다:
  - $b_1$ (Baseline): 기존 SSL 의 전체 증강 정책 (크롭 포함) 을 사용하여 불변성 손실 ( $L_{inv}$ ) 계산.
  - $b_2$ (Equivariant-view): 크롭을 제거하고 가역적 기하학적 변환 (회전, 반전, 스케일) 만 포함하는 정책 ( $T_{eq}$ ) 을 사용하여 불변성 손실과 **공변성 정규화 손실 ( $L_{equiv}$ )**을 계산.
- $L_{equiv}$ 는 중간 토큰 맵 간의 패치 단위 대비 손실 (Patch-wise NT-Xent) 을 사용하여, 변환된 특징이 예측 가능한 방식으로 변하도록 유도합니다.
효율성:
- 추가적인 변환 레이블을 학습하거나 예측하지 않으며, 추가적인 헤드가 필요 없습니다.
- 학습 FLOPs 증가량은 약 1.008 배에 불과하여 매우 가볍습니다.

3. 주요 기여 (Key Contributions)

최종 계층에서의 Trade-off 발견: 불변성과 공변성을 동일한 최종 표현에 부과하는 것이 비최적임을 실험적으로 증명했습니다. 공변성 정규화를 깊은 층으로 이동시키면 공변성 점수는 올라가지만 분류 정확도는 하락합니다.
레이어 디커플링된 SER 제안: 불변성은 최종 임베딩에서, 공변성은 중간 공간 표현에서 부과하는 새로운 정규화 기법을 제안했습니다.
추가 모듈 없는 분석적 작용: 별도의 변환 예측 네트워크 없이 분석적으로 정의된 군 작용을 특징 공간에 직접 적용하여 구현을 단순화했습니다.
기존 방법의 일반적 개선: EquiMod, AugSelf 등 기존 불변 + 공변 방법들의 공변성 목적 함수를 최종 계층이 아닌 중간 계층으로 이동시키는 것만으로도 정확도가 향상됨을 보였습니다. 이는 '레이어 디커플링'이 불변성과 공변성을 결합하는 보편적인 설계 원칙임을 시사합니다.

4. 실험 결과 (Results)

ViT-S/16 을 ImageNet-1k 에서 사전 학습 (Pretraining) 한 후 다양한 벤치마크에서 평가했습니다.

ImageNet-1k 선형 평가 (Linear Evaluation):
- MoCo-v3 기반: 엄격하게 매칭된 2 뷰 (2-view) 설정에서 MoCo-v3 대비 +0.84% Top-1 정확도 향상 (68.44% → 69.28%).
- 다른 백본: DINO (+0.26%), Barlow Twins (+0.68%) 에서도 일관된 성능 향상을 보였습니다.
- 비교: 기존 공변성 기반 방법들 (AugSelf, STL, EquiMod 등) 보다 엄격한 뷰 매칭 조건에서 더 높은 성능을 기록했습니다.
강인성 (Robustness):
- ImageNet-C (Corruptions): 평균 Top-1 정확도 +1.11% 향상.
- ImageNet-P (Perturbations): 평균 Top-1 정확도 +1.22% 향상 (기하학적 왜곡에 특히 강인함).
전이 학습 (Transfer Learning):
- COCO 객체 탐지 (Frozen-backbone): mAP +1.7 향상. 공간적 민감도가 필요한 작업에서 SER 의 효과가 두드러졌습니다.
- 3DIEBench: 도메인 외 전이 성능에서도 우수한 결과를 보였습니다.
비선형 평가 및 파인튜닝: MLP 프롭, k-NN, 파인튜닝 평가에서도 SER 가 기존 방법들을 능가하거나 경쟁력 있는 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 자기지도 학습에서 **불변성 (Invariance)**과 **공변성 (Equivariance)**을 어떻게 효과적으로 조화시킬지에 대한 새로운 통찰을 제공합니다.

설계 원칙의 전환: 단순히 표현의 마지막 단계에서 두 목표를 충돌시키는 대신, 레이어를 분리하여 각 목표에 최적화된 표현을 학습시키는 것이 더 효과적임을 입증했습니다.
실용성: 복잡한 보조 모듈이나 추가적인 레이블 없이, 기존 SSL 파이프라인에 플러그인 (Plug-in) 형태로 쉽게 적용 가능하며 계산 비용 증가가 미미합니다.
범용성: 제안된 '레이어 디커플링' 전략은 기존 다양한 공변성 기반 방법들의 성능을 개선하는 데에도 적용 가능하여, 향후 SSL 연구에 중요한 설계 가이드라인이 될 것으로 기대됩니다.

결론적으로 SER 는 시각 표현 학습의 강인성과 공간적 민감도를 향상시키면서도 기존 SSL 의 성능을 유지하거나 개선하는 효율적이고 강력한 방법론입니다.