Each language version is independently generated for its own context, not a direct translation.

Phys2Real: 로봇이 "눈"과 "손"을 함께 써서 물건을 잘 다루는 법

이 논문은 로봇이 시뮬레이션 (가상 세계) 에서 배운 기술을 실제 세상으로 가져올 때 겪는 어려움을 해결한 새로운 방법, Phys2Real을 소개합니다.

상상해 보세요. 로봇이 가상 게임에서 공을 밀어보는 훈련을 했다고 칩시다. 그런데 실제 세상으로 나가니 공의 무게중심이 게임과 다릅니다. 로봇은 당황해서 공을 제대로 못 밀게 되죠. 기존 방법들은 이 문제를 해결하기 위해 "모든 경우의 수"를 미리 연습하게 하거나, 로봇이 실수를 반복하며 적응하게 했습니다. 하지만 Phys2Real 은 훨씬 더 똑똑한 방식을 제안합니다.

이 방법을 이해하기 위해 세 가지 핵심 비유를 들어보겠습니다.

1. "눈"의 역할: AI 의 직관 (VLM)

로봇이 물건을 처음 볼 때, AI(시각 - 언어 모델) 가 **"이 물건은 무거울 것 같아. 무게중심은 여기쯤 있겠지?"**라고 눈으로만 보고 추측합니다.

비유: 마치 우리가 낯선 물건을 보고 "저건 무거울 거야, 손잡이가 아래쪽에 있겠지?"라고 눈으로만 보고 짐작하는 것과 같습니다.
장점: 아직 손이 닿지 않았을 때 빠르게 초기 정보를 줍니다.
단점: 눈으로만 보면 틀릴 수도 있습니다. (예: 겉보기엔 가벼워 보이지만 속이 꽉 찬 경우)

2. "손"의 역할: 직접 만져보기 (상호작용 학습)

로봇이 물건을 밀어보면서 "어? 생각보다 무거우네?" 혹은 "아, 무게중심이 여기 있구나!"라고 직접 만져보며 정보를 수정합니다.

비유: 우리가 물건을 들어보거나 밀어보면서 "아, 내가 생각했던 게 아니네, 여기가 무거워!"라고 깨닫는 과정입니다.
장점: 실제 물리 법칙을 정확히 파악합니다.
단점: 처음에는 정보가 없어서 헷갈릴 수 있고, 물건을 계속 밀어야만 알 수 있습니다.

3. "스마트한 융합": 두 정보를 섞는 마법 (불확실성 기반 융합)

Phys2Real 의 가장 큰 특징은 이 두 정보를 어떻게 섞을지 결정하는 것입니다.

상황 A (눈이 확실할 때): 로봇이 물건을 밀어보지 않았거나, 물건을 밀어봤는데 정보가 부족할 때 (예: 미끄러운 바닥), AI 의 **"눈으로 본 추측"**을 더 믿습니다.
상황 B (손이 확실할 때): 로봇이 물건을 여러 번 밀어보면서 확실한 데이터를 얻었다면, AI 의 추측은 버리고 **"직접 만져본 사실"**을 더 믿습니다.
핵심: 로봇은 "내가 지금 얼마나 헷갈리는지 (불확실성)"를 스스로 계산해서, 더 확실한 정보를 가진 쪽에 더 큰 비중을 둡니다.

이 방법이 왜 대단한가요? (실제 실험 결과)

연구진은 로봇에게 T 자 모양 블록과 망치를 밀게 하는 실험을 했습니다.

T 자 블록 실험:
- 블록의 무게중심을 위쪽에 두거나 아래쪽에 두어 난이도를 조절했습니다.
- 기존 방법 (Domain Randomization): 모든 경우를 연습했지만, 실제 상황에서는 실패율이 높았습니다. (위쪽 무게중심일 때 성공률 23%)
- Phys2Real: "눈"으로 먼저 추측하고, "손"으로 확인하며 수정했습니다. 그 결과 위쪽 무게중심일 때 성공률이 57% 로 크게 향상되었고, 아래쪽일 때는 100% 성공했습니다.
망치 실험:
- 망치는 무게중심이 머리 쪽에 있어 밀기가 매우 어렵습니다.
- Phys2Real 은 기존 방법보다 작업을 15% 더 빠르게 완료했습니다. 로봇이 망치의 무게중심을 빠르게 파악해서 더 효율적으로 밀었기 때문입니다.

요약: 로봇이 인간처럼 배우는 법

이 연구는 로봇에게 **"눈으로 보고 추측하는 능력 (AI)"**과 **"만져보며 배우는 능력 (상호작용)"**을 동시에 가르쳤습니다. 그리고 로봇이 **"내가 지금 무엇을 모르는지"**를 스스로 판단하게 하여, 두 능력을 상황에 맞게 섞어 쓰게 했습니다.

마치 우리가 낯선 물건을 다룰 때, 먼저 눈으로 보고 "아, 저건 무거울 거야"라고 생각한 뒤, 손으로 들어보며 "오, 생각보다 가볍네?"라고 수정하는 과정과 똑같습니다. Phys2Real 은 바로 이 인간의 직관과 경험 학습을 로봇에게 구현한 기술입니다.

이 기술을 통해 로봇은 더 이상 정해진 시나리오만 반복하는 기계가 아니라, 새로운 물건을 마주했을 때 눈과 손으로 빠르게 적응하는 똑똑한 파트너가 될 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 조작 (Manipulation) 정책은 시뮬레이션에서 학습하여 실제 세계로 전이 (Sim-to-Real Transfer) 하는 과정에서 큰 도전을 겪습니다. 특히 마찰, 질량 분포 (중심), 강성 등 정밀한 물리 역학이 필요한 작업에서 시뮬레이션과 실제 환경 간의 차이 (Reality Gap) 로 인해 성능이 급격히 저하됩니다.
기존의 도메인 랜덤화 (Domain Randomization, DR) 방법은 다양한 파라미터로 학습하여 강건성을 확보하지만, 특정 객체의 고유한 물리적 특성에 적응하지 못하고 평균적인 행동을 취하여 성능이 제한적입니다. 반면, 시스템 식별 (System Identification) 은 매뉴얼 튜닝이 필요하거나 동적 환경 변화에 적응하기 어렵습니다. 또한, 기존 적응 방법들은 불연속적인 접촉 (Intermittent Contact) 이 발생하는 조작 작업에서 관측 이력이 불충분하여 파라미터 추정이 어렵다는 한계가 있습니다.

2. 방법론 (Methodology)

저자들은 Phys2Real이라는 새로운 'Real-to-Sim-to-Real' 파이프라인을 제안합니다. 이는 시각 - 언어 모델 (VLM) 의 사전 지식과 상호작용 기반의 온라인 적응을 불확실성 인식 (Uncertainty-Aware) 방식으로 융합하는 3 단계 구조를 가집니다.

A. Real-to-Sim: 고충실도 기하학적 재구성

3D 가우스 스플래팅 (3D Gaussian Splatting): 실제 세계의 객체 비디오를 입력받아 SAM-2 를 이용한 분할과 SuGaR (Surface-Aligned Gaussian Splatting) 을 통해 물체 중심의 메쉬를 추출합니다.
메쉬 정제: 대칭면을 반사하고 Marching Cubes 알고리즘을 적용하여 깨끗하고 물리 엔진에서 사용 가능한 방수 (Watertight) 메쉬를 생성합니다. 이를 통해 시뮬레이션 환경의 기하학적 정확도를 높입니다.

B. 물리 파라미터 조건부 정책 학습 (Physics-Conditioned Policy Learning)

기존의 RMA (Rapid Motor Adaptation) 를 확장하여, 학습된 잠재 벡터 대신 해석 가능한 물리 파라미터 (예: 질량 중심, CoM) 를 직접 조건으로 사용합니다.

Phase 1 (Ground Truth 학습): 시뮬레이션 내의 정답 물리 파라미터를 사용하여 RL 정책 (PPO) 을 학습합니다.
Phase 1.5 (노이즈 적응): 학습된 정책에 노이즈가 포함된 파라미터를 입력하여, 추론 시 발생할 수 있는 오차에 대한 강건성을 확보합니다.
Phase 2 (적응 모델 학습): 정책은 고정된 채, 과거의 관측 및 행동 히스토리를 입력받아 물리 파라미터를 추정하는 앙상블 (Ensemble) 기반 적응 모델을 학습합니다.
- 불확실성 정량화: 앙상블 분산 (Epistemic Uncertainty) 과 각 모델의 출력 분산 (Aleatoric Uncertainty) 을 결합하여 추정치의 불확실성을 계산합니다.

C. Sim-to-Real: 불확실성 인식 융합 (Uncertainty-Aware Fusion)

실제 환경에서는 VLM 과 상호작용 기반 추정치 (RMA) 를 결합합니다.

VLM Prior: 객체 이미지를 VLM (GPT-5 등) 에 입력하여 질량 중심 (CoM) 과 이에 대한 불확실성 ( $\sigma_{vlm}$ ) 을 추정합니다. 이는 상호작용 전의 초기 지식을 제공합니다.
온라인 적응 (RMA): 로봇이 객체와 상호작용하며 얻은 히스토리를 통해 파라미터를 실시간으로 추정하고 불확실성 ( $\sigma_{rma}$ ) 을 계산합니다.
역분산 가중치 (Inverse-Variance Weighting): 두 추정치를 다음과 같이 융합합니다.
$\hat{\theta} = \frac{\theta_{vlm}/\sigma_{vlm}^2 + \theta_{rma}/\sigma_{rma}^2}{1/\sigma_{vlm}^2 + 1/\sigma_{rma}^2}$
- 상호작용 데이터가 부족하거나 불확실성이 높을 때는 VLM 의 추정을 더 신뢰하고, 반대의 경우 상호작용 데이터를 더 신뢰하여 온라인 적응을 수행합니다.

3. 주요 기여 (Key Contributions)

VLM 기반 물리 파라미터 추정과 상호작용 적응의 융합: VLM 을 고수준 계획이 아닌 저수준 폐루프 제어 (Low-level Closed-loop Control) 에 직접 활용하여 물리적 파라미터를 추정하고, 이를 상호작용 데이터와 융합하는 새로운 패러다임을 제시했습니다.
불확실성 인식 앙상블 적응: 상호작용 이력이 불충분한 상황에서도 Epistemic(모델) 과 Aleatoric(데이터) 불확실성을 분리하여 정량화하고, 이를 VLM 사전 지식과 결합하여 강건한 적응을 가능하게 했습니다.
물리 정보 기반 디지털 트윈: 3D 가우스 스플래팅을 활용한 기하학적 재구성과 실시간 물리 파라미터 추정을 결합하여, 시각적 정보뿐만 아니라 물리적 특성을 반영한 디지털 트윈을 구축했습니다.

4. 실험 결과 (Results)

T-블록 (무게 위치 변경) 과 해머 (비대칭 질량 분포) 를 이용한 평면 밀기 (Planar Pushing) 작업에서 실험을 수행했습니다.

T-블록 (무게 하단): Phys2Real 은 100% 성공률을 기록하여, 기존 DR(79%) 과 RMA-only(79%) 를 압도했습니다.
T-블록 (무게 상단 - 더 어려운 경우): Phys2Real 은 57.14% 성공률을 보였으며, 이는 DR(23%) 과 VLM-only(4.76%), RMA-only(14.29%) 보다 월등히 높았습니다. 이는 VLM 과 상호작용 정보의 결합이 필수적임을 증명합니다.
해머 밀기: Phys2Real 과 DR 모두 100% 성공률을 보였으나, Phys2Real 은 작업 완료 시간이 15% 더 짧았습니다 (77.79 초 vs 90.65 초).
성능 비교: Phys2Real 은 정답 물리 파라미터를 알고 있는 'Privileged' 정책의 성능에 근접하거나, 불확실한 환경에서 오히려 더 나은 적응력을 보여주었습니다.

5. 의의 및 결론 (Significance)

Phys2Real 은 로봇 조작 분야에서 기초 모델 (Foundation Models) 의 지능과 물리적 상호작용의 경험을 결합하는 새로운 방향을 제시합니다.

일반화 능력: 사전 지식이 없는 새로운 객체나 복잡한 물리 역학을 가진 객체에서도 VLM 의 시각적 추론과 로봇의 실시간 경험을 융합하여 효과적으로 적응할 수 있음을 입증했습니다.
불확실성 관리: 상호작용이 끊기는 상황에서도 VLM 이 제공하는 초기 지식을 활용함으로써, 기존 적응 방법의 한계를 극복하고 안정적인 제어를 가능하게 했습니다.
미래 전망: 이 연구는 단순한 물리 파라미터 추정을 넘어, 비전 - 언어 - 행동 (VLA) 모델과 세계 모델 (World Models) 로 확장될 수 있는 가능성을 보여주며, 더 일반적이고 적응적인 로봇 시스템 개발의 토대가 됩니다.

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation