Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "시뮬레이션에서 배운 로봇이 실제 세상에서 왜 망치는가?" 그리고 **"그걸 어떻게 고칠까?"**에 대한 아주 실용적인 연구입니다.

비유하자면, 이 연구는 **'가상 현실 (VR) 게임에서 프로게이머가 된 로봇'**을 **'실제 경기장'**으로 보내기 전에, 어떤 훈련 방식을 써야 진짜 실력을 발휘하게 할지 실험한 이야기입니다.

핵심 내용을 일상적인 언어와 비유로 풀어서 설명해 드릴게요.

🎨 1. 실험 주제: "색깔 섞기 미션"

연구진은 로봇에게 세 가지 기본 잉크 (청록, 마젠타, 노랑) 를 섞어 목표한 색깔을 만들어내는 미션을 줬습니다.

실제 상황: 이 작업은 CAR-T 세포 치료제처럼, 아주 정밀하게 약물을 섞어야 하는 의료/산업 현장과 비슷합니다. 색깔이 조금만 틀려도 실패입니다.
문제점: 로봇은 컴퓨터 시뮬레이션 (가상 실험실) 에서 이 일을 잘해냈는데, 실제 기계로 옮기자마자 엉망이 되었습니다. 이를 **'시뮬레이션과 현실의 괴리 (Sim-to-Real Gap)'**라고 부릅니다.

🔍 2. 왜 실패했을까? (MDP 설계의 중요성)

로봇이 배우는 방식인 '강화 학습'은 **MDP(마르코프 결정 과정)**라는 틀 안에서 이루어집니다. 이 틀을 어떻게 설계하느냐에 따라 결과가 완전히 달라집니다. 연구진은 이 틀의 5 가지 요소를 실험해 봤습니다.

① "목표가 뭐야?"를 알려줘야 해 (State Composition)

비유: 요리사에게 "이 요리를 만들어줘"라고만 하고 **최종 맛 (목표)**을 알려주지 않으면 어떨까요? 요리사는 "대충 맛있는 거"를 만들어낼 뿐, 특정 요리를 완벽하게 만들지 못합니다.
결과: 로봇에게 목표 색깔을 계속 보여줘야 (상태에 포함시켜야) 실제에서도 그걸 맞추려 노력합니다. 목표 색깔을 숨기면 로봇은 "평균적인 색깔"을 만드는 안 좋은 습관을 들이고, 실제 환경에서는 완전히 실패했습니다.

② "얼마나 넣었는지"보다 "비율이 중요해" (State Representation)

비유: 레시피를 볼 때 "소금 5g, 설탕 10g" (절대량) 으로 적혀있으면, 양을 두 배로 늘렸을 때 당황합니다. 하지만 "소금 1 : 설탕 2" (비율) 로 적혀있으면 양이 변해도 요리는 똑같이 됩니다.
결과: 로봇에게 절대적인 양 (몇 ml) 을 알려주는 것보다, 잉크들의 비율을 알려주는 방식이 실제 환경에서 훨씬 잘 적응했습니다.

③ "단순한 칭찬이 최고야" (Reward Formulation)

비유: 아이가 그림을 그릴 때, "색칠할 때 너무 세게 누르지 마, 너무 많이 쓰지 마"라고 잔소리 (복잡한 벌칙) 를 하면 오히려 망설입니다. 대신 "목표 색에 가까울수록 점수 올려줄게" (단순한 칭찬) 라고 하면 자연스럽게 목표를 향해 나아갑니다.
결과: 너무 복잡한 규칙이나 벌칙을 주면 로봇이 시뮬레이션에만 맞춰져서 (Overfitting) 실제 세상에서는 무너졌습니다. 단순하고 직관적인 보상이 가장 효과적이었습니다.

④ "현실 같은 시뮬레이션이 필요해" (Dynamics Models)

비유: 비행기 조종 훈련을 할 때, 바람이 전혀 불지 않는 '완벽한 평온한 날'만 연습하면 실제 비행을 못 합니다. 반면, 실제 바람과 난기류를 시뮬레이션에 포함해서 훈련하면 실제 비행에서도 잘 대처합니다.
결과: 단순한 수학적 모델 (선형) 로 훈련한 로봇은 실제에서 실패했습니다. 하지만 물리 법칙 (빛의 흡수, 산란 등) 을 반영한 복잡한 모델로 훈련한 로봇은 실제 실험에서 50% 성공률을 거뒀습니다.

⑤ "엄격한 훈련이 필요해" (Termination & Tolerance)

비유: 시험을 볼 때 "80 점만 넘으면 합격"이라고 하면 학생은 80 점만 찍고 노력하지 않습니다. 하지만 "95 점 이상 받아야 합격"이라고 하면, 비록 실패할 수도 있지만 정밀한 실력이 길러집니다.
결과: 시뮬레이션에서 훈련할 때 허용 오차를 아주 좁게 (엄격하게) 잡아야, 실제 환경의 작은 오차에도 흔들리지 않는 튼튼한 로봇이 됩니다.

🏆 3. 결론: 무엇을 배웠나?

이 연구는 **"로봇을 현실에 보내려면, 시뮬레이션의 '물리 법칙'을 더 현실적으로 만들고, 로봇에게 '목표'를 명확히 보여주며, 훈련 기준을 엄격하게 잡아야 한다"**는 것을 증명했습니다.

핵심 메시지: 단순히 "더 많이 훈련"하는 게 답이 아닙니다. **어떻게 훈련 환경을 설계하느냐 (MDP 설계)**가 실제 성공을 좌우합니다.
실제 적용: 이 원리는 공장 자동화, 의료 장비 제어, 자율 주행 등 정밀함이 생명인 산업 현장에 로봇을 도입할 때 매우 중요한 길잡이가 됩니다.

💡 한 줄 요약

"가상 현실에서 완벽하게 이긴 로봇이 현실에서 지는 이유는, 훈련할 때 '목표'를 숨기고 '가벼운 규칙'으로 '단순한 세상'을 연습했기 때문입니다. 진짜 세상을 위한 훈련은 더 복잡하고 엄격해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

강화학습 (RL) 은 산업 공정 제어 분야에서 큰 잠재력을 보이고 있으나, 시뮬레이션에서 훈련된 정책이 실제 물리적 하드웨어에 배포될 때 발생하는 시뮬레이션 - 현실 간극 (Sim-to-Real Gap) 으로 인해 성능이 급격히 저하되거나 안전 문제가 발생할 수 있습니다.

기존 접근법의 한계: 대부분의 연구는 전이 역학 (Transition Dynamics) 에 초점을 맞춰 도메인 랜덤화 (Domain Randomization) 나 시스템 식별을 통해 간극을 줄이려 했습니다. 그러나 마르코프 결정 과정 (MDP) 의 다른 핵심 구성 요소인 상태 (State), 보상 (Reward), 종료 조건 (Termination) 등의 설계가 전이 성능에 미치는 체계적인 분석은 부족했습니다.
산업적 중요성: 산업 제어는 안전 제약으로 인해 실제 환경에서의 탐색이 제한적이며, 높은 정밀도 요구사항으로 인해 작은 정책 오류도 치명적일 수 있습니다.

2. 방법론 (Methodology)

저자들은 색상 혼합 (Color Mixing) 작업을 물리적 테스트베드로 활용하여, MDP 설계 선택이 시뮬레이션에서 현실로의 전이에 미치는 영향을 체계적으로 분석했습니다.

A. 작업 정의

목표: 시안 (Cyan), 마젠타 (Magenta), 옐로우 (Yellow) 3 가지 잉크를 혼합하여 목표 색상 (Target Color) 을 정밀하게 재현하는 것.
MDP 구성: 상태 ( $S$ ), 행동 ( $A$ ), 전이 확률 ( $P$ ), 보상 ( $R$ ), 종료 시간 ( $T$ ) 으로 정의되며, 각 요소가 실험 변수로 활용됨.
강건성 메커니즘: 훈련 중 카메라 노이즈와 적대적 교란 (Adversarial Perturbation) 을 적용하여 실제 환경의 불확실성을 모사.

B. 실험 설계 (3 단계 최적화 전략)

MDP 설계 요소를 단계별로 분리하여 최적화했습니다.

1 단계: 구성 요소 선택 (Component Selection)
- 목표 상태 포함 여부: 목표 색상을 상태에 포함시키는 것이 마르코프 속성을 만족시키고 전이 성능을 높이는지 검증 (H1).
- 상태 표현 (State Representation): 절대 부피 (Absolute Volume) vs 상대 비율 (Relative Ratio) 표현의 일반화 능력 비교 (H2).
- 보상 함수 (Reward): 단순 거리 기반 보상 vs 행동 패널티가 포함된 복잡한 보상 비교 (H3).
2 단계: 에피소드 설계 최적화 (Episode Design)
- 종료 시간 ( $T$ ) 및 허용 오차 ( $\tau$ ): 훈련의 수렴 속도와 정밀도 간의 균형을 찾기 위해 다양한 임계값 테스트 (H4).
3 단계: 역학 모델 강건성 (Dynamics Robustness)
- 물리 기반 모델: 단순 선형 보간 (Lerp) 과 물리 기반 모델 (Kubelka-Munk, Weighted Geometric Mean) 을 비교하여 실제 물리 현상을 얼마나 잘 반영하는지 검증 (H5).

C. 평가 지표

시뮬레이션: 최종 성능 (FP), 학습 효율성 (T7.5), 안정성 (CV), 비단조성 (NM).
현실 (하드웨어): RGB 거리 ( $d_R$ ), 목표 도달 단계 수, 성공률 (Success).

3. 주요 기여 (Key Contributions)

체계적인 MDP 설계 분석: 색상 혼합 테스트베드를 통해 상태 표현, 보상, 종료 조건, 역학 모델 등 MDP 설계 요소가 시뮬레이션 - 현실 전이에 미치는 영향을 정량적으로 분석.
실제 하드웨어 검증: 시뮬레이션 결과뿐만 아니라 실제 하드웨어 실험을 통해 이론과 실제의 간극을 직접 측정하고, 어떤 설계 요소가 전이 성능을 결정하는지 규명.
실용적 가이드라인 도출: 산업용 RL 배포를 위한 구체적인 MDP 설계 패턴 (예: 목표 상태 포함, 물리 기반 역학 모델 사용 등) 과 설계 오류로 인한 과적합 (Overfitting) 사례를 제시.

4. 실험 결과 (Results)

A. 시뮬레이션 결과

목표 상태 포함 (H1): 목표 색상을 상태에 포함시킨 경우 (M1) 학습 안정성과 수렴성이 크게 향상됨. 포함하지 않은 경우 (M2) 는 평균 목표에 최적화된 타협적 정책을 학습하여 특정 목표 달성 실패.
상태 표현 및 보상 (H2, H3): **상대 비율 기반 상태 표현 (State 4)**과 **단순 거리 기반 보상 (R1)**이 가장 안정적인 학습과 우수한 전이 성능을 보임. 복잡한 행동 패널티는 역학 모델이 복잡해질 때 오히려 불안정을 초래.
역학 모델 (H5): 물리 기반 모델 (KM, WGM) 은 학습 속도는 느리지만 (T7.5 증가), 더 복잡한 역학을 학습하여 전이 잠재력이 높음.

B. 현실 (하드웨어) 결과 및 핵심 발견

목표 상태의 필수성: 목표 색상을 상태에 포함하지 않은 모델 (M2) 은 시뮬레이션에서는 어느 정도 성공했으나, 현실에서는 0% 성공으로 완전히 실패함. 이는 목표 정보가 없으면 실제 역학 변화에 적응할 수 없기 때문임.
물리 기반 역학 모델의 우위:
- 단순 모델 (Lerp) 을 사용한 경우, 엄격한 정밀도 조건 ( $\tau=7.5$ ) 하에서는 실패하거나 낮은 성공률 (약 43%) 을 보임.
- **물리 기반 모델 (Kubelka-Munk, WGM)**을 사용한 경우, 동일한 엄격한 조건에서 최대 50% 의 성공률을 기록하며 가장 강력한 전이 성능을 입증.
역학 모델과 에피소드 설계의 상호작용: 엄격한 종료 조건과 허용 오차는 저정밀도 역학 모델 (Lerp) 에서는 실패를 초래하지만, 고정밀 물리 모델 (KM, WGM) 에서는 성공을 가능하게 함. 즉, 모델의 정확도가 정책의 정밀도 요구사항을 뒷받침해야 함.
색상 도달 범위: 흥미롭게도 시뮬레이션 모델 중 어느 것도 하드웨어 실험의 목표 색상을 완벽하게 재현할 수 있는 범위를 가지지 않았음 (시뮬레이션 내 최소 허용 오차 $\tau_{min}$ 이 7.5 를 초과). 그럼에도 물리 기반 모델이 현실에서 더 잘 작동한 것은 **스펙트럼 범위보다는 역학의 정확도 (Dynamics Accuracy)**가 전이 성공의 핵심임을 시사.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 시뮬레이션 - 현실 간극을 줄이는 데 있어 **역학 모델의 정확도뿐만 아니라 MDP 의 전체적인 설계 (특히 상태 표현과 보상 구조)**가 결정적임을 증명했습니다.

핵심 교훈:
1. 목표 상태 포함: 목표 조건을 상태에 명시적으로 포함시키는 것은 RL 정책이 특정 목표에 적응할 수 있게 하는 필수 조건입니다.
2. 물리 기반 모델: 단순한 근사 모델 대신 물리 법칙을 반영한 역학 모델 (Kubelka-Munk 등) 을 사용하면 정밀도가 요구되는 산업 환경에서 훨씬 강력한 전이 성능을 얻을 수 있습니다.
3. 간단한 보상과 상대적 상태: 복잡한 보상 함수나 절대적 상태보다는 단순한 거리 기반 보상과 상대적 비율 상태 표현이 일반화 성능을 높입니다.
4. 설계의 상호작용: 훈련 환경의 엄격함 (Strictness) 은 사용된 역학 모델의 정밀도와 맞물려야 합니다. 저정밀도 모델에 엄격한 조건을 적용하면 실패합니다.

이 논문은 산업 공정 제어와 같은 안전이 중요하고 정밀도가 요구되는 분야에서 RL 을 성공적으로 배포하기 위한 실용적인 설계 지침을 제공합니다.