Learning in Markov Decision Processes with Exogenous Dynamics

이 논문은 에이전트의 행동과 무관하게 진화하는 외생적 상태 요소를 가진 구조화된 마르코프 의사결정 과정 (MDP) 을 연구하여, 이러한 구조를 활용하면 기존 방법보다 훨씬 우수한 학습 보장과 샘플 효율성을 달성할 수 있음을 이론적 하한선과 실증 실험을 통해 입증합니다.

Davide Maran, Davide Salaorni, Marcello Restelli

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "날씨를 통제할 수 없는 조종사"

기존의 강화학습 AI 는 마치 **"날씨를 마음대로 바꿀 수 있는 마법사"**처럼 훈련됩니다.

  • 기존 방식: AI 가 "왼쪽으로 날아가라"라고 명령하면, 그 명령이 비, 구름, 바람까지 모두 바꾸어 다음 상태를 결정한다고 가정합니다.
  • 현실의 문제: 하지만 실제 세상에서는 그렇지 않습니다.
    • 주식 투자: 내가 "매수"를 해도 주식 가격은 시장 상황 (외부 요인) 에 따라 오르내립니다. 내 주문 하나로 가격을 움직일 수 없습니다.
    • 댐 관리: 내가 물을 방류해도 비가 오는지, 가뭄인지는 내가 통제할 수 없습니다.
    • 택시: 내가 어디로 가든, 길거리의 교통 체증 (외부 요인) 은 내가 통제할 수 없습니다.

이런 '내가 통제할 수 없는 외부 요인 (Exogenous Dynamics)' 때문에 AI 는 혼란에 빠집니다. "내가 잘못해서 실패했나? 아니면 그냥 운이 나빴나?"를 구분하기 어렵기 때문에, 좋은 전략을 찾기 위해 엄청난 양의 데이터 (시행착오) 가 필요합니다.

2. 해결책: "PCMDP"라는 새로운 지도

이 논문은 AI 에게 **"네가 통제할 수 있는 부분과 없는 부분을 명확히 구분해라"**라고 가르칩니다. 이를 **PCMDP (부분 제어 가능 마르코프 결정 과정)**라고 부릅니다.

  • 비유: 비행기 조종사가 비행기 엔진과 조종간 (내부/통제 가능) 과 날씨 (외부/통제 불가) 를 구분해서 생각한다는 것입니다.
    • 내부 (Endogenous): 비행기 연료, 위치, 속도. (조종사가 바꿀 수 있음)
    • 외부 (Exogenous): 비, 바람, 구름. (조종사가 바꿀 수 없음, 그냥 관찰만 함)

이 두 가지를 섞어서 생각하지 않고 분리해서 생각하면 AI 는 훨씬 더 효율적으로 배울 수 있습니다.

3. 두 가지 새로운 알고리즘 (EXAVI 와 EXAQ)

저자들은 이 아이디어를 바탕으로 두 가지 새로운 학습 방법을 만들었습니다.

① EXAVI (모델 기반 학습): "예측 가능한 미래 시뮬레이션"

  • 원리: AI 가 "날씨"는 이미 알고 있다고 가정하고, 오직 "날씨 변화 패턴"만 관찰해서 학습합니다.
  • 비유: 조종사가 "비가 오는 날은 항상 시야가 나빠진다"는 사실은 이미 알고 있다고 칩시다. 그럼 AI 는 "비가 올 때 어떻게 비행해야 할지"만 집중해서 연습하면 됩니다. "비가 왜 오는지"를 다시 배울 필요도, "비가 오지 않게 하려고" 시도해 볼 필요도 없습니다.
  • 효과: 기존 방식보다 수천 배 더 적은 데이터로 최적의 전략을 찾아냅니다.

② EXAQ (모델 없는 학습): "한 번의 경험으로 모든 경우를 학습"

  • 원리: AI 가 한 번 "비"를 경험했을 때, 그 경험을 이용해 "비가 올 때의 모든 비행 상황"을 한꺼번에 업데이트합니다.
  • 비유: 보통 AI 는 "비가 오면서 왼쪽으로 선회했을 때"라는 하나의 경우만 배웁니다. 하지만 이 방법은 "비가 왔으니, 왼쪽 선회뿐만 아니라 오른쪽 선회, 직진 등 모든 비행 상황에 대해 '날씨가 비일 때'의 지식을 업데이트한다"는 것입니다.
  • 효과: 마치 한 번의 실험으로 모든 변수를 동시에 파악하는 것처럼, 데이터 효율이 극대화됩니다.

4. 실제 실험 결과: "택시와 주식 트레이딩"

연구팀은 이 방법을 실제 환경에 적용해 보았습니다.

  • 택시 시뮬레이션: 길거리의 교통 체증 (외부 요인) 을 통제할 수 없는 상황에서 택시를 운전하게 했습니다.
    • 결과: 기존 AI 는 수천 번의 실수를 반복해야 좋은 경로를 찾았지만, 새로운 AI (EXAVI/EXAQ) 는 몇 번의 시도 만에 최적의 경로를 찾아냈습니다.
  • 주식 자동 매매: 시장 가격 (외부 요인) 을 통제할 수 없는 상황에서 주식을 팔아야 했습니다.
    • 결과: 기존 AI 는 너무 급하게 주식을 다 팔거나 (공포 매도), 너무 느리게 팔았지만, 새로운 AI 는 시장 상황을 잘 파악하여 가장 수익이 나는 타이밍에 주식을 매도하는 전략을 빠르게 터득했습니다.

5. 결론: "불필요한 시도를 줄이자"

이 논문의 핵심 메시지는 **"통제할 수 없는 것에 에너지를 쓰지 마라"**입니다.

기존 AI 는 "내가 무엇을 하든 결과가 달라질까?"를 무작위로 시도하며 배웠지만, 이 새로운 방법은 **"내 행동이 결과에 영향을 주지 않는 부분은 그냥 관찰만 하고, 내 행동이 영향을 주는 부분에만 집중하자"**고 말합니다.

이처럼 현실 세계의 구조 (통제 가능 vs 통제 불가) 를 잘 이해하고 활용하면, AI 는 훨씬 더 적은 비용과 시간으로 현실적인 문제를 해결할 수 있게 됩니다. 이는 금융, 에너지 관리, 물류 등 다양한 분야에서 AI 를 실제로 쓸모 있게 만드는 중요한 첫걸음입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →