Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary… — 쉬운 설명

원저자: Sharan Sahu, Abir Sarkar, Cameron J. Hogan, Martin T. Wells

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Sharan Sahu, Abir Sarkar, Cameron J. Hogan, Martin T. Wells

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

안개 낀 들판에서 움직이는 표적을 따라가려 한다고 상상해 보세요. 표적 (즉, "최적 해") 은 끊임없이 위치를 바꾸고 있으며, 당신은 흐릿하고 잡음이 섞인 렌즈를 통해서만 이를 볼 수 있습니다. 당신의 목표는 가능한 한 표적에 가까이 머무는 것입니다.

이 논문은 움직이는 표적을 따라가는 두 가지 다른 전략, 즉 SGD(확률적 경사 하강법) 와 Adam(적응 모멘트 추정) 에 대한 이론적 탐구입니다. Adam 은 현대 AI 학습을 위한 '우선 선택' 도구이지만, 이 논문은 다음과 같은 질문을 던집니다: 세상이 변할 때 Adam 이 실제로 도움이 되는가, 아니면 때로는 상황을 더 악화시키는가?

다음은 그들의 발견을 간단한 비유를 통해 정리한 내용입니다.

두 명의 달리기 선수

SGD(스프린터) 이 선수는 오직 지금 보는 것에만 기반하여 한 걸음을 떼습니다. 땅이 아래로 경사져 보이면 그 방향으로 걸음을 옮깁니다. 그들은 5 초 전의 위치를 기억하지 않습니다.
- 강점: 짐을 지고 있지 않기 때문에, 표적이 갑자기 방향을 바꿀 때 즉각적으로 반응할 수 있습니다.
- 약점: 시야가 안개 낀 상태 (잡음이 많은 데이터) 라면, 안개 속의 오류에 기반하여 잘못된 한 걸음을 내딛을 수 있습니다.
Adam(배낭을 멘 마라톤 선수) 이 선수는 더 영리합니다. 그들은 기억이라는 "배낭"을 지고 있습니다.
- **1 차 모멘트 기억 **(나침반) 그들이 걸어온 평균적인 방향을 기억합니다. 경로가 울퉁불퉁하다면 과거의 방향들을 평균화하여 걸음을 부드럽게 만듭니다.
- **2 차 모멘트 기억 **(지형도) 과거에 땅이 얼마나 가파랐는지 기억합니다. 경로가 이전에 가파랐다면 그곳에서는 작은 걸음을, 평평했다면 큰 걸음을 떼습니다.
- 강점: 안개 낀 울퉁불퉁한 환경에서 이 기억은 그들이 안정적으로 머무르도록 도와주며, 무작위 잡음에 의해 진로에서 밀려나는 것을 방지합니다.
- 약점: 표적이 갑자기 새로운 방향으로 질주하면, 선수의 기억 (나침반과 지도) 은 이제 "구식"이 됩니다. 그들은 여전히 오래된 경로를 따라가려 하므로 뒤처지게 됩니다.

큰 발견: "잡음 대 이동"의 트레이드오프

이 논문은 수학적으로 증명합니다. 근본적인 트레이드오프가 존재하며, 동일한 전략으로 두 시나리오 모두에서 이길 수는 없습니다.

시나리오 A: "이동 지배적" 세계 (표적이 빠르게 달리고 있음)

표적이 들판을 가로질러 질주하며 빠르게 방향을 바꾸고 있다고 상상해 보세요.

무슨 일이 일어나는가: Adam 의 "배낭"은 오히려 부담이 됩니다. 선수는 낡은 지도를 보고 낡은 나침반을 따르고 있습니다. 기억을 새로운 방향으로 조정할 때까지는 이미 표적이 다시 이동해 버립니다.
결과: SGD 가 승리합니다. 과거를 무시하고 현재에만 반응하는 스프린터가 기억의 짐을 진 마라톤 선수보다 빠르게 움직이는 표적을 더 잘 따라갈 수 있습니다.
논문의 주장: 이동이 지배적인 영역에서 Adam 의 "구식" 정보는 실제로 성능을 해쳐, 당신과 표적 사이의 간격을 더 크게 만듭니다.

시나리오 B: "잡음 지배적" 세계 (표적은 멈춰 있지만 안개는 짙음)

표적은 가만히 서 있지만, 바람이 파편을 사방으로 날려 땅을 보기 어렵게 만들고 있다고 상상해 보세요.

무슨 일이 일어나는가: 스프린터인 SGD 는 바람 한 번에 혼란을 겪고 비틀거리며 헤매게 됩니다. 마라톤 선수인 Adam 은 기억을 활용하여 "좋아, 저 바람은 그냥 잡음이었지; 전체적인 추세는 여전히 여기에 있다"라고 말합니다.
결과: Adam 이 승리합니다. 적응형 기억은 혼란을 부드럽게 만들어, 덜컹거리는 스프린터보다 선수가 표적에 더 가까이 머무르게 합니다.
논문의 주장: 잡음이 지배적인 영역에서 잡음을 평균화하는 Adam 의 능력은 SGD 보다 우월하게 만듭니다.

"버인 (Burn-In)"과 "바닥 (Floor)"

이 논문은 Adam 이 때때로 시작하는 데 시간이 오래 걸리는 이유 ("버인" 기간) 와 왜 표적에 완벽하게 가까워질 수 없는지 ("바닥") 도 설명합니다.

버인: Adam 이 시작할 때, 그 "배낭"은 비어 있습니다. 기억을 효과적으로 사용하기 전에 데이터로 채워야 합니다. 이 기간 동안은 실제로 SGD 보다 성능이 떨어질 수 있습니다.
바닥: 오랜 시간이 지나도 Adam 은 움직이는 표적에 완벽하게 가까워질 수 없습니다. 논문은 이 간격이 존재하는 정확한 이유를 분해합니다. 이는 네 가지 요인에 의해 발생합니다:
1. 시작 위치: 당신이 출발한 곳.
2. 표적 속도: 표적이 달리는 속도 (이동).
3. 기억 지연: "배낭"이 과거를 얼마나 붙잡고 있는지 ( $\beta_1$ 이라는 설정으로 제어됨).
4. 지도 불안정성: "지형도"가 얼마나 요동치는지 ( $\beta_2$ 라는 설정으로 제어됨).

"안정화" 노브 ( $\epsilon$ )

가장 실용적인 발견 중 하나는 Adam 의 특정 설정인 $\epsilon$ (엡실론) 에 관한 것입니다.

비유: $\epsilon$ 을 선수의 신발에 달린 "쇼크 업소버"나 "감쇠기"라고 생각하세요.
발견: 논문은 세상이 변할 때 (이동 시) $\epsilon$ $ϵ$ 을 증가시키는 것이 Adam 에게 도움이 되는 이유를 설명합니다.
- 작은 $\epsilon$ 은 선수를 "지형도"에 매우 민감하게 만듭니다. 지도에 오류가 생기면 선수가 비틀거립니다.
- 큰 $\epsilon$ 은 완충제 역할을 합니다. 지도의 작고 잡음이 많은 변화에 과반응하는 것을 막아줍니다. 이는 표적이 움직일 때 선수가 더 안정적으로 유지되게 하며, 적응 메커니즘 자체에 의해 균형을 잃는 것을 방지합니다.

요약

이 논문은 언제 어떤 선수를 사용해야 하는지에 대한 수학적 "규칙집"을 제공합니다:

**데이터가 빠르게 변할 때 **(이동이 높음) Adam 의 무거운 기억을 사용하지 마세요. 빠르게 반응할 수 있도록 SGD(또는 기억이 적은 Adam 의 변형) 를 사용하세요.
**데이터는 잡음이 많지만 안정적일 때 **(잡음이 높음) Adam을 사용하세요. 그 기억이 잡음을 무시하고 진정한 경로를 찾도록 도와줄 것입니다.
변화하는 세계에서 Adam 을 사용해야 할 때: 알고리즘이 너무 덜컹거리지 않도록 "쇼크 업소버"( $\epsilon$ ) 를 조정해야 할 수도 있습니다.

저자들은 Adam 이 "나쁜" 것이 아니라, 단지 그 초능력 (기억) 이 환경이 그 기억이 따라잡기엔 너무 빠르게 변할 때 약점이 된다고 결론지었습니다.

Each language version is independently generated for its own context, not a direct translation.

기술적 요약: 적응하거나 잊거나: 비정상 최적화에서 Adam 과 SGD 간의 증명 가능한 트레이드오프

문제 제기
본 논문은 비정상 확률적 목적 함수 하에서 적응형 경사 방법, 특히 Adam 의 이론적 행동을 다룹니다. 고정된 최소점으로의 수렴을 목표로 하는 표준 정상 설정과 달리, 이 연구는 분포 $\Pi_t$ 의 이동으로 인해 목적 함수 $G_t(\theta)$ 가 시간에 따라 변하는 시간 가변 최적화 문제를 고려합니다. 핵심 질문은 다음과 같습니다: Adam 의 적응형 사전 조건화가 이동하는 최소점을 추적하는 데 있어 순수 확률적 경사 하강법 (SGD) 보다 개선된 효과를 발휘하는 시점은 언제이며, 언제는 모멘텀 기반의 기억이 해롭게 작용하는가?

실증적 증거는 분포 이동 하에서 Adam 이 "가소성 손실"이나 불안정성을 겪을 수 있음을 시사하지만, 이러한 실패 모드와 비정상 영역에서 Adam 의 하이퍼파라미터 ( $\beta_1, \beta_2, \epsilon$ ) 의 구체적인 역할에 대한 정확한 이론적 특성은 부재했습니다.

방법론 및 프레임워크
저자들은 목표 최소점 $\theta^*_t$ 가 필터링 $\mathcal{F}_t$ 에 적응된 예측 가능한 과정인 확률적 예측 가능성 프레임워크 내에서 Adam 알고리즘을 분석합니다. 분석은 두 가지 주요 영역으로 나뉩니다:

적응형 강한 단조성 하의 유클리드 추적: 저자들은 Adam-사전 조건화된 평균 경사 연산자의 예측 가능한 대리변수에 강한 단조성 조건을 부과함으로써 유한 시간 추적 오차 ( $\|\theta_t - \theta^*_t\|$ ) 를 유도합니다. 이 접근법은 문제의 예측 가능한 기하학을 실현된 사전 조건자의 확률적 변동과 분리합니다.
일반 사전 조건화 하의 투영 정상성: 강한 단조성을 가정하지 않고, 저자들은 평균 투영 정상성 간격에 대한 고확률 경계를 수립합니다. 이는 분석을 비볼록 설정과 제약 최적화로 일반화하며, 제약이 비활성화될 때 표준 경사 노름 보장으로 축소됩니다.

주요 기술적 혁신은 다음과 같습니다:

예측 가능한 대리변수 구성: Adam 사전 조건자 $P_{t+1}$ 가 새로운 샘플 $X_{t+1}$ 에 의존하여 (예측 불가능하게 만듦) 예측 불가능하다는 사실을 처리하기 위해, 저자들은 이차 모멘트의 조건부 기댓값을 사용하여 예측 가능한 대리변수 $\tilde{P}_{t+1}$ 를 구성합니다. 이를 통해 선택적 정지 논거에 의존하지 않는 수축 조건을 유도할 수 있습니다.
오차 분해: 추적 오차는 초기화 감쇠, 목적 함수 드리프트, 1 차 모멘트 추적 오차 ( $\beta_1$ 에 의해 지배됨), 그리고 사전 조건자 섭동 ( $\beta_2$ 와 $\epsilon$ 에 의해 지배됨) 의 네 가지 명확한 구성 요소로 엄밀하게 분해됩니다.
집중 부등식: 분석은 시간 구간 전체에 걸쳐 균일하게 적용되는 고확률 경계를 유도하기 위해 조건부 $\Psi_\alpha$ -Orlicz 노름과 Freedman 유형의 마팅갈 부등식을 활용합니다.

주요 기여 및 결과

유한 시간 추적 경계: 본 논문은 오차를 해석 가능한 항들로 분해하는 Adam 에 대한 명시적 고확률 경계를 제공합니다. 이 경계들은 추적 바닥이 모멘텀이 제공하는 노이즈 감소와 구식 경사 정보로 인한 지연 사이의 트레이드오프에 의해 결정됨을 보여줍니다.
노이즈–드리프트 트레이드오프: 핵심 이론적 발견은 노이즈 지배 영역과 드리프트 지배 영역 사이의 날카로운 트레이드오프입니다:
- 노이즈 지배 영역: 확률적 경사 노이즈가 높을 때, Adam 의 1 차 모멘트 평균화 ( $\beta_1$ 에 의해 제어됨) 와 적응형 사전 조건화는 SGD 에 비해 고확률 추적 바닥을 감소시킵니다.
- 드리프트 지배 영역: 목적 함수가 빠르게 드리프트할 때, $\beta_1$ 에 의해 유도된 기억 편향과 $\beta_2$ 에 의해 유도된 이차 모멘트 사전 조건자의 섭동은 비정상성의 비용을 증폭시킵니다. 이러한 영역에서는 기억이 없는 순수 SGD 가 이동하는 목표에 더 빠르게 적응함으로써 더 작은 추적 바닥을 달성합니다.
하이퍼파라미터 특성화: 경계는 Adam 의 하이퍼파라미터 역할을 명시적으로 구분합니다:
- $\beta_1$ (1 차 모멘트): 편향 - 분산 트레이드오프를 제어합니다. 큰 $\beta_1$ 은 노이즈를 억제하지만 기억 편향을 증폭시켜 빠른 드리프트 하에서는 해롭습니다.
- $\beta_2$ (이차 모멘트): 과도기적 바닥 트레이드오프를 지배합니다. 큰 $\beta_2$ 는 점근적 사전 조건자 섭동 바닥을 감소시키지만 과도기적 "버닝인" 시간의 감쇠를 늦춥니다.
- $\epsilon$ (안정화): 분석은 작업 변경 하에서 $\epsilon$ 을 증가시키면 Adam 이 안정화된다는 실증적 관찰에 대한 이론적 메커니즘을 제공합니다. 더 큰 $\epsilon$ 은 적응형 이차 모멘트 과정의 변동성을 감쇠시켜 사전 조건자 섭동 항을 줄이지만, 드리프트에 대한 적응 속도를 저하시킵니다.
투영 정상성 보장: 저자들은 이러한 통찰력을 일반적인 비볼록 제약 설정으로 확장하여, 강한 단조성이 없더라도 동일한 질적 오차 구조 (드리프트, 1 차 모멘트 편향, 이차 모멘트 섭동) 가 유지됨을 증명합니다.

의의 및 주장
본 논문은 비정상 확률적 목적 함수 하에서 Adam 에 대한 최초의 유한 시간 이론적 분석을 제공한다고 주장합니다. 그 의의는 다음과 같습니다:

실증적 불안정성 해결: 분포 이동 (예: 지속적 학습) 하에서 Adam 이 왜 저하되는지, 그리고 특정 하이퍼파라미터 조정 (예: $\epsilon$ 증가) 이 왜 이를 안정화시키는지에 대한 이론적 설명을 제공합니다.
최적화 선택: 휴리스틱 조언을 넘어, 적응형 방법이 SGD 보다 증명적으로 우월한 조건과 증명적으로 비최적인 조건을 명확히 구분합니다.
이론과 실무의 연결: 이론적 경계는 강한 볼록 최소제곱, MLP 회귀, 위상 복원, 행렬 분해에 걸친 수치 실험과 일치하여, 고드리프트 설정에서는 SGD 가 Adam 을 능가하고 고노이즈 설정에서는 Adam 이 우월함을 확인합니다.

저자들은 사전 조건자 섭동을 경로별로 제어하기 위해 유계 경사 가정에 의존한다는 점과 이 설정에서 Adam 에 대한 미니맥스 하한이 부재하다는 점을 한계로 지적하며, 이를 향후 연구 방향으로 제안합니다. 그러나 현재 연구는 적응형 최적화에서의 "적응하거나 잊거나"라는 딜레마를 이해하기 위한 엄격한 프레임워크를 수립합니다.

Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary Optimization