Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

이 논문은 목적 함수에 의해 유도된 다양체의 기하학적 구조를 정확히 반영하고 학습률 설정 없이도 최적화 경로를 다양체 상에 유지하도록 설계된 새로운 최적화 알고리즘인 '측지선 경사 하강법 (GGD)'을 제안하며, 이를 통해 기존 Adam 알고리즘 대비 Fully Connected 네트워크와 CNN 에서 각각 MSE 와 교차 엔트로피 손실을 유의미하게 감소시키는 효과를 입증했습니다.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏔️ 인공지능이 길을 찾는 방법: "구름 속의 산길" 이야기

1. 기존 방식의 문제: "평평한 지도로 험한 산을 오르는 실수"

기존의 인공지능 학습 방법 (예: Adam, SGD) 은 마치 평평한 평지에서 산을 오르는 것과 같습니다.

  • 상황: 인공지능은 '손실 함수 (Loss Function)'라는 거대한 산의 꼭대기 (최고점) 에서谷底 (최저점, 가장 좋은 결과) 를 찾아 내려가야 합니다.
  • 문제: 기존 알고리즘은 이 산이 완전히 평평한 평지라고 착각하고, 단순히 '가장 가파른 방향'을 보고 직진합니다.
  • 결과: 실제로는 산이 구불구불하고 복잡한 곡면 (만다) 이기 때문에, 직진하다가 산을 벗어날 위험이 있습니다. 마치 산등성이를 따라 걷다가 갑자기 공중으로 날아오르거나, 산 아래로 떨어지는 것과 같습니다. 또한, 이 복잡한 산의 모양 (곡률 등) 을 무시하기 때문에 최적의 길 (정답) 을 찾느라 시간이 오래 걸리거나 엉뚱한 곳에 멈출 수 있습니다.

2. 기존 해결책의 한계: "하나의 공으로 모든 산을 재단하다"

최근에는 "산이 평평하지 않으니, 산 모양에 맞춰서 걸어야 한다"는 리만 기하학 (Riemannian Geometry) 기반의 방법들이 나왔습니다.

  • 비유: 산을 구름 속의 복잡한 모양으로 인식하고, 그 모양에 맞춰 걸으려 합니다.
  • 한계: 하지만 이 방법들은 산을 **'하나의 완벽한 공 (구면)'**이나 '원통' 같은 단순한 모양으로만 가정합니다. 현실의 산 (학습할 데이터) 은 너무 복잡해서 하나의 단순한 모양으로 다 설명할 수 없습니다. 마치 "모든 산은 둥근 공이다"라고 주장하는 것과 비슷합니다.

3. 이 논문의 해결책 (GGD): "현장마다 작은 공을 만들어 길을 닦다"

저자들은 **"산 전체를 하나로 정의할 필요는 없다"**는 아이디어를 제시합니다. 대신, **지금 발이 닿은 그 자리 (매 순간)**에만 딱 맞는 작은 공을 만들어 길을 닦는 방식을 고안했습니다.

  • 핵심 아이디어 (GGD):
    1. 현장 맞춤 공: 인공지능이 현재 서 있는 지점 (매개변수) 에서 아주 작은 영역만 보면, 그 부분은 마치 **작은 공 (구면)**처럼 보입니다. GGD 는 이 작은 공을 만들어 그 위에 발을 디딥니다.
    2. 최단 경로 (지오데식): 이 작은 공 위에서 두 지점을 잇는 가장 짧은 길은 **직선이 아니라 호 (Curved line)**입니다. GGD 는 이 호를 따라 이동합니다. 이렇게 하면 인공지능이 항상 산의 표면 (곡면) 위에 머무르게 되어, 길을 잃지 않습니다.
    3. 학습률 (Learning Rate) 불필요: 보통 인공지능은 "얼마나 큰 걸음으로 걷을까?"를 정하는 '학습률'이라는 설정값이 필요합니다. 하지만 GGD 는 **공의 크기 (반지름)**에 따라 걸음 크기가 자동으로 결정됩니다.
      • 비유: "너무 큰 걸음을 내디디면 넘어지니까, 이 공의 둘레의 1/4 만큼만 걸어가자"라고 정해버린 것입니다. 그래서 사용자가 "걸음 크기를 몇으로 할까?"라고 고민할 필요가 없습니다.

4. 실험 결과: "기존 지도자들보다 훨씬 똑똑한 길 찾기"

저자들은 이 새로운 방법 (GGD) 을 기존 유명한 방법들 (Adam, SGD 등) 과 비교해 보았습니다.

  • 비유: 복잡한 미로 (데이터) 를 찾는 게임에서, GGD 는 다른 참가자들보다 훨씬 **적은 실수 (오차)**로 미로의 출구를 찾았습니다.
  • 결과:
    • 회귀 분석 (숫자 예측): 버거스 (Burgers') 데이터셋에서 기존 최고 성능 알고리즘 (Adam) 보다 최대 48% 까지 오차를 줄였습니다.
    • 분류 분석 (이미지 식별): MNIST (손글씨 숫자) 데이터에서 정확도가 더 높아졌고, 손실 (실수) 이 11% 이상 줄었습니다.
    • 속도: 네트워크가 복잡해질수록 (층이 깊어질수록) GGD 가 더 빠르게 학습했습니다.

💡 요약: 왜 이것이 중요한가?

이 논문은 **"인공지능이 복잡한 세상을 학습할 때, 평평한 평지처럼 생각하지 말고, 그 자리마다 맞는 작은 공을 만들어 그 위를 자연스럽게 굴러가자"**고 말합니다.

  • 기존: "산이 평평하다고 믿고 직진하다가 길을 잃음."
  • 새로운 방법 (GGD): "지금 서 있는 곳의 모양을 작은 공로 보고, 그 공 위를 가장 짧은 호 (길) 를 따라 자연스럽게 이동함."
  • 장점: 설정값 (학습률) 을 고민할 필요가 없고, 복잡한 산길에서도 길을 잘 찾아내며, 더 빠르고 정확하게 정답에 도달합니다.

이 방법은 인공지능이 더 복잡한 문제를 풀 때, 수학적으로 더 정교하고 효율적인 나침반이 되어줄 것으로 기대됩니다.