Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

이 논문은 선형 분리 가능한 이진 분류에서 심층 선형 대각 네트워크를 학습할 때, SAM(Sharpness-Aware Minimization) 이 깊이 L=2L=2 이상에서 초기화에 민감하게 반응하거나 '순차적 특징 증폭' 현상을 보이는 등 경사 하강법 (GD) 과는 근본적으로 다른 암시적 편향을 가짐을 이론적으로 증명하고 실험적으로 검증합니다.

Chaewon Moon, Dongkuk Si, Chulhee Yun

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "무거운 가방을 든 학생과 가벼운 가방을 든 학생"

인공지능 모델을 공부하는 학생이라고 상상해 보세요. 이 학생은 시험 (데이터) 을 보고 정답을 찾아야 합니다.

  1. 기존 방식 (GD - 경사 하강법):

    • 이 학생은 **"가장 눈에 띄고 큰 특징"**만 봅니다.
    • 예를 들어, 고양이 사진을 볼 때 귀와 수염처럼 크고 뚜렷한 부분만 보고 "이건 고양이야!"라고 외칩니다.
    • 작은 특징 (털의 결이나 배경의 그림자) 은 아예 무시하거나 나중에야 알아차립니다.
    • 결과: 항상 같은 방향으로만 공부해서, 큰 특징을 먼저 잡습니다.
  2. 새로운 방식 (SAM - 날카로움 인식 최소화):

    • 이 학생은 **"만약 내가 조금만 실수하면 어떨까?"**를 상상하며 공부합니다. (즉, 학습할 때 약간의 혼란을 겪어보며 더 튼튼한 답을 찾습니다.)
    • 흥미로운 점: 이 학생은 학습 초기에는 아주 작은 특징부터 먼저 잡으려 합니다.
    • 고양이 사진을 볼 때, 귀나 수염 같은 큰 특징은 나중에 배우고, 배경의 어두운 그림자나 털의 미세한 결 같은 '작은 특징'을 먼저 집중해서 분석합니다.
    • 시간이 지나거나 공부하는 양 (초기 설정) 이 커지면, 비로소 큰 특징으로 주의를 돌립니다.

🔍 이 논문의 핵심 발견 3 가지

1. 깊이가 얕으면 똑같지만, 깊어지면 달라집니다 (층수 1 vs 2)

  • 층수가 1 인 경우 (단순한 모델): SAM 과 기존 방식 (GD) 은 똑같이 행동합니다. 큰 특징을 먼저 봅니다.
  • 층수가 2 이상인 경우 (깊은 신경망): 여기서 SAM 이 기이한 행동을 시작합니다. 작은 특징을 먼저 배우는 '순차적 특징 증폭' 현상이 발생합니다.
    • 비유: 마치 도서관에서 책을 찾을 때, 먼저 구석진 작은 책 (작은 특징) 을 찾아보다가, 나중에 중앙에 있는 큰 책 (큰 특징) 으로 이동하는 것과 같습니다.

2. '작은 특징'을 먼저 배우는 이유: SAM 의 독특한 눈

SAM 은 학습 과정에서 데이터의 '노이즈'나 '작은 신호'를 증폭시키는 필터를 가지고 있습니다.

  • 초기에는: 작은 신호를 크게 부풀려서 먼저 학습합니다. (왜냐하면 SAM 은 "이 작은 부분도 중요할지 모른다"고 생각하기 때문입니다.)
  • 나중에는: 큰 신호가 압도적으로 커지면, 비로소 큰 특징에 집중합니다.
  • 결과: 학습이 끝날 때 최종 답은 GD 와 같아지지만, 학습하는 과정 (동역학) 이 완전히 다릅니다.

3. 초기 설정 (초기화) 에 따라 결과가 바뀝니다

  • 초기값이 너무 작으면: 학생이 아예 공부를 시작하지 못하고 제자리 (0) 에 머뭅니다. (Regime 1)
  • 초기값이适中 (적당) 하면: 작은 특징 → 중간 특징 → 큰 특징 순서로 천천히 배우며 이동합니다. (Regime 2, 가장 흥미로운 부분)
  • 초기값이 너무 크면: 바로 큰 특징부터 배우고 GD 와 비슷해집니다. (Regime 3)

🖼️ 실생활 예시: 고양이 사진 인식하기

논문의 실험 (MNIST, SVHN 등) 에서 이 현상을 확인했습니다.

  • GD(기존) 가 보는 고양이:
    • 고양이 얼굴의 **흰색 부분 (큰 특징)**에 집중합니다. "여기가 고양이 얼굴이야!"라고 확신합니다.
  • SAM 이 보는 고양이:
    • 처음에는 **검은 배경이나 그림자 (작은 특징)**에 집중합니다. "아, 이 그림자도 고양이와 관련이 있나?"라고 생각하며 배경을 자세히 살핍니다.
    • 나중에야 얼굴로 시선을 옮깁니다.

왜 이것이 중요할까요?
기존에는 "학습이 끝났을 때 최종 답이 무엇이냐"만 중요하다고 생각했습니다. 하지만 이 논문은 **"학습하는 과정 (어떤 순서로 배우느냐) 이 최종 성능과 일반화 능력에 큰 영향을 준다"**고 말합니다. SAM 이 작은 특징을 먼저 배우는 이 과정이, 모델이 더 유연하고 튼튼하게 작동하게 만드는 비결일 수 있습니다.

💡 한 줄 요약

"SAM 은 깊은 신경망에서 학습 초기에 '작은 특징'을 먼저 집중적으로 배우는 독특한 성향을 가지며, 이는 기존 방식 (GD) 과는 완전히 다른 학습 경로를 만들어냅니다."

이처럼 SAM 은 단순히 정답을 찾는 것을 넘어, **어떤 순서로 세상을 바라볼지 (어떤 특징을 먼저 볼지)**를 결정하는 새로운 방식을 제시했습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →