Ergodicity in reinforcement learning

이 논문은 강화학습에서 비에르고딕 보상 과정 하에서 단일 에이전트의 장기적 성능을 최적화하기 위해 기대값 대신 개별 궤적의 평균을 고려해야 함을 예시를 통해 설명하고, 기존 해결 방안들을 제시합니다.

Dominik Baumann, Erfaun Noorani, Arsenii Mustafin, Xinyi Sheng, Bert Verbruggen, Arne Vanhoyweghen, Vincent Ginis, Thomas B. Schön

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 배우는 방식에 숨겨진 치명적인 함정을 발견하고, 이를 해결하는 새로운 방법을 제안합니다.

핵심 주제는 **"평균은 우리를 속일 수 있다"**는 것입니다. 특히 AI 가 장기적으로 살아남아 성과를 내야 하는 상황에서는, 단순히 "평균적인 결과"를 쫓는 것이 오히려 파멸을 부를 수 있다는 이야기입니다.

이 복잡한 수학적 논의를 일상적인 비유로 쉽게 풀어보겠습니다.


1. 문제: "평균"이라는 속임수 (러시안 룰렛과 배달 로봇)

일반적인 AI(강화학습) 는 "수많은 시나리오를 시뮬레이션해 봤을 때, 가장 높은 점수를 주는 행동"을 배웁니다. 이를 기대값 (Expected Value) 최적화라고 합니다.

하지만 현실은 다릅니다. 한 사람이 평생 살아남아야 한다면, '수많은 사람의 평균'이 아니라 **'자신의 한 생애'**가 중요하기 때문입니다.

비유: 배달 로봇의 선택

  • 선택 A (위험한 길): 10 분 만에 도착하지만, 매번 1% 확률로 폭탄에 맞아 로봇이 완전히 부서집니다. (한 번 죽으면 끝장)
  • 선택 B (안전한 길): 20 분 걸리지만, 절대 부서지지 않습니다.

평균을 계산하면: 위험한 길은 99% 확률로 성공하므로, 평균 점수는 안전길보다 훨씬 높습니다. AI 는 "평균이 더 좋으니 위험한 길로 가자!"라고 배웁니다.
현실은: 위험한 길을 계속 선택하면, 언젠가는 100% 확률로 로봇이 부서져서 더 이상 일할 수 없게 됩니다. 반면 안전길은 비록 느리지만, 영원히 일하며 누적 점수를 쌓을 수 있습니다.

결론: "평균"은 수많은 시뮬레이션을 합친 것이지만, 실제 AI 는 **한 번의 생애 (단일 경로)**를 살아갑니다. 여기서 평균과 현실이 달라지는 것을 '비-에르고딕 (Non-ergodic)' 현상이라고 합니다.

2. 예시: 동전 던지기 게임 (돈이 불어나는가, 사라지는가?)

논문의 핵심 예시는 동전 던지기 게임입니다.

  • 규칙: 내 돈의 50% 를 걸고 동전을 던집니다.
    • 앞면: 걸린 돈의 50% 를 추가로 줍니다 (총 1.5 배).
    • 뒷면: 걸린 돈의 40% 를 잃습니다 (총 0.6 배).
  • 평균의 속임수: 앞면과 뒷면이 반반이므로, 한 라운드 평균 수익은 5% 증가합니다. (1.5 × 0.6 = 0.9? 아님, 기대값 계산 시 1.05 배). 그래서 "무조건 모든 돈을 걸어야 이긴다"는 결론이 나옵니다.
  • 현실의 참사: 실제로 게임을 해보면, 앞면이 2 번, 뒷면이 2 번 나오면?
    • $1.5 \times 1.5 \times 0.6 \times 0.6 = 0.81$
    • 돈이 19% 줄어듭니다!
    • 시간이 갈수록, 대부분의 사람들은 돈을 잃고 0 에 수렴하게 됩니다. 하지만 '평균'을 계산하는 AI 는 "어차피 평균은 오르는 거야!"라며 계속 모든 돈을 걸다가 파산합니다.

이것이 바로 **에르고딕성 (Ergodicity)**이 깨진 상황입니다. "많은 사람이 한 번씩 한 게임의 평균"과 "한 사람이 무한히 게임을 반복한 결과"가 완전히 다릅니다.

3. 해결책: AI 를 어떻게 고칠 것인가?

논문은 이 문제를 해결하기 위해 세 가지 창의적인 방법을 제안합니다.

① "변환기"를 달아주기 (Ergodicity Transformations)

  • 비유: AI 가 보는 점수판을 바꾸는 것입니다.
  • 설명: AI 가 직접 "평균 점수"를 쫓는 대신, 점수를 **로그 (Log)**나 다른 수학적 함수로 변환해서 학습시킵니다. 마치 고도계를 잘못 읽는 비행기 조종사가 고도계를 다시 보정하는 것처럼요.
  • 효과: 변환된 점수를 기준으로 학습하면, AI 는 "평균이 높더라도 파산할 위험이 큰 길"을 피하고, "비록 느리지만 꾸준히 성장하는 길"을 선택하게 됩니다.

② "기하평균"을 쫓기 (Modified Geometric Mean)

  • 비유: "한 번의 실수가 전체를 망칠 수 있다"는 사실을 인정하는 것입니다.
  • 설명: 기존 AI 는 '산술 평균'을 쫓지만, 이 방법은 '기하평균'을 쫓습니다. 기하평균은 한 번의 큰 손실이 전체 성장률을 얼마나 떨어뜨리는지 매우 민감하게 반응합니다.
  • 효과: AI 는 "혹시 모를 큰 손실"을 극도로 경계하게 되어, 위험한 도박을 하지 않고 안정적인 성장을 꾀하게 됩니다.

③ "시간의 흐름"을 직접 체험시키기 (Temporal Training)

  • 비유: 시뮬레이션 게임에서 '한 번의 턴'만 보는 게 아니라, '한 판 전체'를 반복해서 플레이하게 하는 것입니다.
  • 설명: AI 가 매번 같은 상황에서도, 과거의 결과 (현재 가진 돈) 를 기억하게 하고, 그 결과에 따라 다음 행동을 결정하도록 훈련시킵니다.
  • 효과: AI 는 "지금 모든 돈을 걸면 다음 턴에 게임이 끝날 수 있다"는 인과관계를 직접 체득하게 되어, 위험한 선택을 피하게 됩니다.

4. 요약 및 시사점

이 논문은 우리에게 중요한 메시지를 줍니다:

"세상은 평균이 아니라, 한 번의 실패가 치명적인 '단일 경로'로 이루어져 있다."

  • 금융: 투자 전략을 짤 때, "평균 수익률"만 보고 모든 자산을 고위험 주식에 넣으면 파산할 수 있습니다.
  • 의료/로봇: 환자를 치료하거나 로봇을 제어할 때, "평균적으로 성공할 확률"이 높더라도 "한 번의 실수가 치명적"인 상황에서는 안전한 선택이 더 중요합니다.
  • AI 개발: 앞으로의 AI 는 단순히 "평균 점수"를 높이는 것을 넘어, 장기적인 생존과 지속 가능성을 고려하도록 설계되어야 합니다.

이 논문은 AI 가 더 똑똑해지기 위해, 수학적인 '평균'의 함정을 깨닫고 현실적인 '생존'의 지혜를 배워야 한다고 말합니다.