Soft Equivariance Regularization for Invariant Self-Supervised Learning

이 논문은 불변성과 등변성 목표를 서로 다른 계층에 적용하는 '소프트 등변성 정규화 (SER)'를 제안하여, 기존 자기지도학습의 강건성과 전이 성능을 동시에 향상시키는 새로운 설계 원리를 제시합니다.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "사진관과 거울" 이야기

컴퓨터가 사진을 학습할 때, 보통 두 가지 태도를 취합니다.

  1. 불변성 (Invariance): "이 사진이 비가 오든, 햇빛이 쨍쨍하든, 약간 잘려 있든 같은 고양이야!"라고 생각하는 능력입니다. (예: MoCo, DINO 같은 기존 기술)

    • 장점: 사물을 정확히 분류하는 데 좋습니다.
    • 단점: "고양이가 왼쪽을 보고 있든 오른쪽을 보고 있든 똑같다"고만 생각하면, 방향이나 모양의 미세한 변화를 무시하게 되어, 사진이 찌그러지거나 회전했을 때 헷갈릴 수 있습니다.
  2. 공변성 (Equivariance): "사진이 90 도 회전하면, 내 머릿속에서도 고양이 이미지가 90 도 회전해서 기억해야 해!"라고 생각하는 능력입니다.

    • 장점: 사진이 어떻게 변형되든 그 변화의 규칙을 이해하므로, 사진이 왜곡되거나 회전해도 잘 대처합니다.
    • 단점: 너무 변형에 민감하게 반응하면, 사물 자체를 식별하는 데 방해가 될 수 있습니다.

🤔 기존 방법의 문제점: "모든 것을 한 번에 하려고 했다"

기존 연구자들은 "불변성"과 "공변성"을 모두 가르치려고 했습니다. 하지만 문제는 어디서 가르치느냐에 있었습니다.

기존 방법들은 두 가지를 모두 **최종 결론 (마지막 단계)**에서 동시에 가르쳤습니다. 마치 학생에게 "시험지 마지막 장에 답을 쓸 때, '이건 고양이야'라고 쓰되, '고양이가 회전했으면 그 회전 각도도 같이 써야 해'라고 동시에 시킨 것과 같습니다.

결과: 학생 (AI) 이 혼란스러워합니다.

  • 회전 각도를 정확히 맞추려고 하면, "고양이"라는 정답을 맞추는 실수가 늘어납니다.
  • 반대로 "고양이"만 맞추려고 하면, 회전 같은 기하학적 변화를 무시하게 됩니다.

✨ 이 논문의 해결책: "소프트 에퀴바리언스 정규화 (SER)"

저자들은 **"불변성과 공변성을 가르치는 장소를 분리하자!"**는 아이디어를 냈습니다. 이것이 바로 SER의 핵심입니다.

1. 중간 단계에서 '공변성'을 훈련하세요 (요리 준비 과정)

사진을 처리하는 AI 는 여러 단계를 거칩니다.

  • 초기 단계: 원본 사진.
  • 중간 단계: 사진의 특징 (털, 귀, 눈 등) 을 추출하는 과정. (이때는 사진이 여전히 격자 모양의 픽셀로 남아있습니다.)
  • 최종 단계: "고양이"라는 하나의 결론을 내리는 단계.

SER 는 중간 단계에서 "공변성"을 가르칩니다.

  • 비유: 요리사가 재료를 다듬는 준비 과정에서, "채소가 회전하면 그 모양도 회전해서 다듬어야 해"라고 연습하는 것입니다. 이때는 재료의 정확한 모양 (공간적 구조) 을 유지하고 있기 때문에 회전이나 뒤집기를 연습하기 좋습니다.

2. 최종 단계에서는 '불변성'만 유지하세요 (결론 내리기)

최종 결론을 내리는 단계에서는 기존 방식대로 "무조건 고양이가 고양이로 보이게"만 가르칩니다.

  • 비유: 요리가 완성된 접시를 손님에게 줄 때는, "이건 맛있는 요리야"라고만 말하면 됩니다. 손님이 접시를 회전시켜도 요리의 맛은 변하지 않으니까요.

3. "소프트"한 규칙

이 방법은 AI 에게 "반드시 정확히 회전해야 해!"라고 강제로 시키지 않습니다. 대신 "회전했을 때의 변화가 논리적으로 연결되도록 부드럽게 도와줘"라고 요청합니다. 그래서 '소프트 (Soft)'라고 부릅니다.


🚀 왜 이 방법이 더 좋은가요?

이 방법을 적용한 결과, AI 는 다음과 같은 놀라운 능력을 갖게 되었습니다.

  1. 더 똑똑한 분류: "고양이"를 구별하는 정확도가 기존 방법보다 높아졌습니다. (ImageNet 데이터에서 0.84% 향상)
  2. 튼튼한 방어력: 사진이 흐릿해지거나 (ImageNet-C), 회전하거나 찌그러지는 (ImageNet-P) 상황에서도 여전히 잘 인식합니다. 마치 튼튼한 방패를 가진 것처럼요.
  3. 공간 감각 향상: 사진 속 사물의 위치를 파악하는 능력 (예: 물체 감지) 이 크게 좋아졌습니다.
  4. 비용 절감: 별도의 복잡한 장치를 추가하지 않고, 기존 학습 방식에 아주 작은 비용 (약 1% 증가) 만 더하면 됩니다.

💡 요약: "층을 나누어 가르치는 지혜"

이 논문의 핵심 메시지는 **"한 번에 모든 것을 가르치려 하지 말고, 각 단계에 맞는 교육을 하라"**는 것입니다.

  • 중간 단계 (재료 준비): "회전, 뒤집기, 크기 조절" 같은 기하학적 변화를 이해하도록 훈련 (공변성).
  • 최종 단계 (결론): "무엇인지"만 정확히 식별하도록 훈련 (불변성).

이처럼 **학습의 층 (Layer) 을 분리 (Decoupling)**함으로써, AI 는 사물을 더 정확하게, 그리고 더 튼튼하게 인식할 수 있게 되었습니다. 이는 앞으로 더 똑똑한 인공지능을 만드는 중요한 설계 원칙이 될 것입니다.