V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제 상황: "눈이 가려진 로봇"의 고민

기존의 로봇 안전 분석 기술 (MORALS) 은 로봇이 자신의 상태를 정확히 알고 있을 때만 작동했습니다. 마치 자동차의 계기판을 보고 "속도 60km, 엔진 온도 정상"이라고 숫자로 확인하는 것과 비슷합니다.

하지만 현실 세계의 로봇은 카메라 (눈) 만을 가지고 있습니다.

계기판 (상태 데이터): "팔이 45 도 각도로 올라갔고, 속도는 2m/s"라고 숫자로 알려줍니다. (정확하지만 로봇은 이걸 못 봅니다.)
카메라 (이미지 데이터): "어떤 물체가 화면 중앙에 있고, 배경은 흐릿하다"는 그림만 보여줍니다. (정보는 많지만, 숫자처럼 명확하지 않고 해석이 어렵습니다.)

기존 기술은 로봇이 **계기판 (상태 데이터)**을 볼 수 있을 때만 "이 상태면 넘어질 거야 (위험)"라고 예측했습니다. 하지만 **카메라 (이미지)**만 있는 로봇에게는 이 기술이 무용지물이었습니다.

🔍 2. V-MORALS 의 해결책: "사진을 보고 미래를 읽는 마법"

이 연구팀은 로봇이 카메라로 찍은 사진 (이미지) 만 보고도 "이 로봇은 결국 성공할까, 실패할까?"를 예측하는 방법을 개발했습니다.

🎨 비유 1: 복잡한 지도를 단순화하는 "요약본"

로봇이 보는 카메라 화면은 픽셀 수만 수백만 개로, 너무 복잡합니다. 이를 분석하려면 **잠재 공간 (Latent Space)**이라는 **'요약된 지도'**를 만듭니다.

원래 지도: 모든 길, 건물, 나무가 다 있는 거대한 도시 지도 (고차원 이미지).
요약 지도 (잠재 공간): 중요한 길과 목적지만 표시된 간결한 지하철 노선도 (저차원 벡터).

V-MORALS 는 이 '지하철 노선도'를 만드는 데 특화되어 있습니다. 로봇이 움직이는 **동영상 (시퀀스)**을 보고, "이건 넘어지는 상황", "저건 서 있는 상황"이라는 핵심 특징만 뽑아내어 간결한 지도로 만듭니다.

🕸️ 비유 2: 운명의 갈림길 (모스 그래프)

이제 로봇이 이 '요약된 지도' 위에서 어떻게 움직일지 분석합니다. 여기서 **모스 그래프 (Morse Graph)**라는 개념이 나옵니다.

비유: 이 그래프는 **"운명의 나침반"**이나 **"선택지 나무"**와 같습니다.
로봇이 현재 위치 (초기 이미지) 에서 출발하면, 이 나침반은 로봇이 결국 어디로 갈지 보여줍니다.
- 초록색 구름 (성공 영역): 로봇이 결국 균형을 잡고 일어서는 곳.
- 보라색 구름 (실패 영역): 로봇이 넘어져서 꼼짝 못 하는 곳.

이 기술은 로봇이 지금 어디에 있든, "너는 지금 초록색 구름 쪽으로 가고 있으니 안전해!" 혹은 "너는 보라색 구름 쪽으로 가고 있으니 위험해!"라고 미리 알려줍니다.

🛠️ 3. 어떻게 작동할까요? (기술의 핵심)

사진을 흑백으로 정리하기: 배경의 잡음 (나무, 하늘, 조명) 을 지우고 로봇 몸체만 남기는 '마스크'를 씌웁니다. (복잡한 그림을 단순한 실루엣으로 바꿈)
시간을 한 번에 보기: 한 장의 사진만 보면 "어디로 움직일지" 알 수 없습니다. 그래서 연속된 사진 10 장을 묶어서 한 덩어리로 봅니다. (비유하자면, 정지된 사진이 아니라 짧은 애니메이션을 보는 것)
미래를 예측하는 AI: 이 애니메이션을 보고 "다음에 어떤 그림이 나올까?"를 예측하는 AI 를 훈련시킵니다.
성공과 실패를 구분하기: "성공한 경우의 그림들"은 한데 모으고, "실패한 경우의 그림들"은 따로 모아 서로 멀리 떨어뜨리도록 학습시킵니다.

📊 4. 실험 결과: 얼마나 잘할까요?

연구팀은 인간형 로봇 (Humanoid), 카트폴 (CartPole), 펜듈럼 등 다양한 로봇을 테스트했습니다.

결과: 로봇이 **상태 데이터 (계기판)**를 볼 때와 거의 비슷하게 잘 예측했습니다.
중요한 발견: 지도의 복잡도 (차원) 를 조금만 높여주면 (2 차원 → 3 차원), 예측 정확도가 비약적으로 상승했습니다. 마치 지도를 더 자세히 그려주니 길을 찾기가 훨씬 쉬워진 것과 같습니다.

💡 5. 왜 이것이 중요한가요?

기존에는 로봇이 안전하려면 정확한 수학적 모델이나 상태 데이터가 필수였습니다. 하지만 V-MORALS 는 **"눈 (카메라) 만 있으면 된다"**는 것을 증명했습니다.

실제 적용: 공장 로봇, 자율주행차, 드론처럼 복잡한 환경에서 카메라만 보고도 "지금 이 행동은 위험하니 멈춰야 해"라고 판단할 수 있게 됩니다.
의의: 로봇이 더 똑똑하고, 안전하며, 복잡한 세상에서도 스스로 판단할 수 있는 기반을 마련했습니다.

🚧 6. 아직 남은 과제 (한계점)

눈이 가려지면: 로봇이 중요한 부분을 못 보는 경우 (예: 로봇 발이 그림자에 가려짐) 에는 예측이 어려울 수 있습니다.
실제 세상: 아직은 컴퓨터 시뮬레이션 (가상 세계) 에서만 잘 작동합니다. 실제 세상으로 가져가면 조명, 날씨 등 변수가 많아 더 많은 학습이 필요합니다.

🎯 요약

V-MORALS는 로봇에게 "계기판 없이 눈 (카메라) 만으로" 미래를 보고 안전을 판단하는 능력을 선물한 기술입니다. 복잡한 영상을 단순한 '운명의 지도'로 바꾸어, 로봇이 넘어질지, 일어서서 성공할지 미리 알려주는 스마트한 안전 관리자 역할을 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem Statement)

배경: 로봇 공학에서 시스템의 안전성을 보장하기 위해 '도달 가능성 분석 (Reachability Analysis)'과 '수렴 영역 (Region of Attraction, ROA)' 추정은 매우 중요합니다. 기존 방법론 (예: Hamilton-Jacobi 도달성 분석) 은 시스템의 동역학 모델을 정확히 알고 있거나 대규모 데이터가 필요하며, 고차원 상태 공간에서 계산 비용이 매우 높다는 한계가 있습니다.
기존 접근법 (MORALS): 최근 제안된 MORALS 방법은 위상수학적 도구인 '모스 그래프 (Morse Graph)'를 사용하여 저차원 잠재 공간 (Latent Space) 에서 ROA 를 추정합니다. 이는 복잡한 동역학을 효율적으로 분석할 수 있게 하지만, 시스템의 완전한 상태 정보 (State Information, 예: 관절 속도, 위치 등) 가 필수적이라는 치명적인 단점이 있습니다.
본 연구의 문제점: 실제 로봇 환경에서는 센서 데이터 (이미지) 만을 통해 시스템을 관측하는 경우가 많습니다 (부분 관측성, Partial Observability). 단일 이미지 프레임은 운동 정보를 포함하지 않아 모호성이 발생하며, 고차원 픽셀 데이터를 직접 처리하는 것은 계산적으로 비효율적입니다.
목표: 상태 정보 없이 이미지 기반의 궤적 데이터만으로 시스템의 동역학을 학습하고, 이를 통해 모스 그래프와 ROA 를 추정하여 안전성을 분석하는 방법론 개발.

2. 제안 방법론: V-MORALS (Methodology)

V-MORALS 는 MORALS 아키텍처를 시각 데이터에 적용할 수 있도록 확장한 방법론으로, 다음과 같은 핵심 단계로 구성됩니다.

가. 데이터 전처리 및 시공간 인코딩

이진 마스크 (Binary Mask): 입력 이미지의 배경 (텍스처, 조명 등) 을 제거하고 시스템 (로봇) 만을 분리하기 위해 이진 마스크를 적용합니다. 이는 입력 복잡도를 줄이고 물리적 구성 요소의 동역학에 집중하도록 돕습니다.
시퀀스 인코딩: 단일 프레임의 모호성을 해결하기 위해 연속된 이미지 시퀀스 (h 프레임) 를 하나의 잠재 벡터로 인코딩합니다. 이를 통해 시간적 정보 (운동, 속도 등) 를 포착합니다.
3D 컨볼루션 오토인코더: 시공간 정보를 동시에 학습하기 위해 3D 컨볼루션을 사용하는 오토인코더를 설계합니다.
- Encoder (E): 이미지 시퀀스를 저차원 잠재 벡터 ( $z \in Z$ ) 로 압축.
- Decoder (D): 잠재 벡터를 다시 이미지 시퀀스로 복원 (재구성).
- Latent Dynamics Network (LD): 현재 잠재 상태 ( $z_k$ ) 를 기반으로 다음 잠재 상태 ( $\hat{z}_{k+1}$ ) 를 예측하는 순환 신경망 (Feedforward NN).

나. 학습 목표 (Training Objectives)

모델은 4 가지 손실 함수의 가중 합으로 학습됩니다:

재구성 손실 ( $L_{recon}$ ): 인코더 - 디코더가 이진 이미지 시퀀스를 얼마나 잘 복원하는지 측정 (Binary Cross-Entropy).
동역학 손실 ( $L_{dynamics}$ ): LD 가 예측한 다음 잠재 상태와 실제 다음 시퀀스의 인코딩된 상태 간의 거리 최소화 (MSE).
예측 재구성 손실 ( $L_{recon\_pred}$ ): LD 로 예측한 잠재 상태가 디코더를 통해 원래 다음 이미지 시퀀스를 얼마나 잘 복원하는지 측정.
대조 손실 ( $L_{contrast}$ ): 성공 (Success) 과 실패 (Failure) 궤적의 잠재 벡터를 명확히 분리하기 위해 적용.
- 클래스 간 손실: 성공/실패 클러스터 간 거리를 최대화.
- 클래스 내 손실: 동일 클래스 내 벡터 간 거리를 최소화 (클러스터링 강화).

다. 모스 그래프 및 ROA 생성

학습된 잠재 공간 $Z$ 를 격자 (Grid) 로 이산화합니다.
각 격자 셀의 모서리 점들을 LD 를 통해 미래로 전파 (Rollout) 하고, 예측 불확실성을 고려한 안전 버블 (Safety Bubble) 을 생성합니다.
셀 간의 전이 관계를 기반으로 방향성 그래프 (Directed Graph) 를 구성하고, 이를 위상수학적으로 단순화하여 모스 그래프 (Morse Graph) 를 생성합니다.
모스 그래프의 리프 노드 (Leaf Nodes) 를 '끌개 (Attractor)'로 간주하고, 각 끌개로 수렴하는 초기 상태들의 집합을 ROA로 정의합니다.

3. 주요 기여 (Key Contributions)

V-MORALS 프레임워크 제안: MORALS 를 부분 관측 환경 (이미지 입력) 으로 확장하여, 상태 정보 없이도 모스 그래프와 ROA 를 생성할 수 있는 최초의 방법론 중 하나입니다.
시공간 인코딩 기법: 3D 컨볼루션 오토인코더와 시퀀스 기반 학습을 통해 고차원 이미지 데이터에서 동역학적 특징 (운동, 속도) 을 효과적으로 추출하는 방법을 제시했습니다.
광범위한 실험적 검증: Pendulum, CartPole, Acrobot, Humanoid 등 4 가지 표준 제어 벤치마크에서 다양한 컨트롤러 (LQR, DDPG, SAC 등) 에 대해 모델의 유효성을 입증했습니다.
성능 향상 요인 규명: 잠재 공간의 차원 (2 차원 vs 3 차원) 이 증가할수록 복잡한 동역학을 더 잘 포착하여 예측 정확도가 크게 향상됨을 발견했습니다.

4. 실험 결과 (Results)

성능 지표: Humanoid, CartPole 등 다양한 환경에서 정밀도 (Precision), 재현율 (Recall), F-score 를 측정했습니다.
- 차원의 영향: 2 차원 잠재 공간에서는 복잡한 동역학을 표현하기 어려워 성능이 낮았으나, 3 차원으로 확장 시 모든 환경에서 F-score 가 크게 향상되었습니다 (예: CartPole 에서 0.29 → 0.81, Humanoid 에서 0.54 → 0.84).
- 컨트롤러 일반화: 상태 기반 컨트롤러 (LQR) 와 비전 기반 컨트롤러 (DDPG) 모두에서 유사한 성능을 보여 방법론의 일반화 능력을 입증했습니다.
기존 MORALS 와 비교:
- 완전한 상태 정보를 사용하는 기존 MORALS 에 비해 초기 (2 차원) 성능은 낮았으나, 잠재 차원을 3 차원으로 늘리면 성능 격차가 크게 줄어들었습니다.
- 특히 Humanoid (GetUp) 작업에서 3 차원 V-MORALS 는 0.84 의 F-score 를 달성하여 실용적인 수준에 도달했습니다.
노이즈 내성: 이미지에 가우시안 노이즈가 추가되었을 때 성능이 저하되었으나, 이는 디코더의 재구성 능력 한계로 분석되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

안전성 분석의 패러다임 전환: 로봇이 고차원 센서 데이터 (카메라) 만을 사용할 때에도 수학적 안전성 보장 (Reachability Analysis) 을 가능하게 하여, 실제 물리 세계에서의 적용 가능성을 높였습니다.
해석 가능성 (Interpretability): 복잡한 고차원 시스템의 행동을 저차원의 직관적인 모스 그래프로 시각화하여, 시스템이 어떤 조건에서 성공하거나 실패할지 (끌개 영역) 를 명확히 예측할 수 있게 합니다.
미래 전망: 현재는 시뮬레이션 환경과 이진 마스크에 의존하지만, 향후 실제 로봇 데이터와 더 복잡한 환경으로 확장하여 로봇의 안전 제어 및 강화 학습에 기여할 것으로 기대됩니다.

요약하자면, V-MORALS 는 상태 정보가 없는 이미지 데이터만으로도 시스템의 장기적 행동 (안전/위험) 을 예측할 수 있는 강력한 위상수학적 분석 도구를 제공하며, 잠재 공간의 차원 확장을 통해 고차원 동역학 문제를 해결하는 새로운 접근법을 제시합니다.