InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 비법 1: "만들기 쉬운 연습장" (운동 데이터 증강)

비유: 요리사에게 다양한 재료를 주는 것

기존의 로봇 학습은 마치 요리사가 오직 '한 가지 모양의 감자'만 가지고 요리 연습을 하는 것과 비슷했습니다. 감자가 항상 같은 위치에 있다면 요리사는 그 상황에만 익숙해집니다. 하지만 실제 부엌에서는 감자가 어디에 있을지 모릅니다.

InterReal 은 이 문제를 해결하기 위해 '운동 데이터 증강 (Motion Augmentation)' 기술을 썼습니다.

어떻게 작동하나요? 로봇이 물건을 잡는 동작을 기록할 때, 물건의 위치를 살짝씩 바꿔가며 (왼쪽, 오른쪽, 앞, 뒤) 수백 가지의 '가상 시나리오'를 만들어냅니다.
효과: 로봇은 마치 다양한 재료가 섞여 있는 연습장에서 훈련을 하듯, 물건의 위치가 달라져도 어떻게 손을 움직여야 할지 스스로 추론하게 됩니다. 마치 요리사가 감자 모양이 달라도 어떻게 요리할지 아는 것처럼, 로봇도 물건의 위치가 조금씩 달라져도 안정적으로 잡을 수 있게 됩니다.

2. 핵심 비법 2: "스마트한 코치" (자동 보상 학습기)

비유: 상황에 맞춰 점수판을 바꾸는 코치

로봇을 훈련시킬 때 가장 어려운 점은 **'무엇을 잘했는지 점수 (보상) 를 매기는 기준'**을 정하는 것입니다.

예를 들어, 물건을 들 때 '균형을 잡는 것'이 중요할 수도 있고, '물건을 정확히 잡는 것'이 중요할 수도 있습니다.
기존 방식은 연구자가 "이때는 균형 점수를 50 점, 잡기 점수를 50 점으로 해라"라고 고정된 규칙을 정해줬습니다. 하지만 로봇이 배우는 단계에 따라 중요한 것이 달라지는데, 고정된 규칙은 로봇을 혼란스럽게 만들었습니다.

InterReal 은 **'자동 보상 학습기 (Automatic Reward Learner)'**라는 스마트한 코치를 도입했습니다.

어떻게 작동하나요? 이 코치는 로봇의 학습 상황을 실시간으로 지켜봅니다. 로봇이 넘어질 위기에 처하면 "지금엔 균형 점수를 더 올려줘!"라고 점수판의 비중을 자동으로 조절합니다. 물건을 잡는 순간이 오면 "이제 잡기 점수를 높여줘!"라고 바꿉니다.
효과: 로봇은 상황에 맞춰 가장 중요한 목표를 스스로 찾아내는 능력을 갖게 되어, 훨씬 더 빠르고 정확하게 숙달됩니다.

3. 실전 성과: 가상에서 현실까지

이 시스템은 시뮬레이션 (가상 공간) 에서만 테스트한 것이 아니라, Unitree G1 이라는 실제 휴머노이드 로봇에 적용하여 검증했습니다.

테스트 내용: 무거운 상자를 들어 옮기는 일 (Box-picking) 과 바닥에 있는 상자를 밀어내는 일 (Box-pushing).
결과:
- 정확도: 로봇이 물건을 잡는 손의 위치나 물건의 움직임이 인간이 시연한 동작과 거의 일치했습니다.
- 성공률: 100 번 시도 중 96 번 이상 성공할 정도로 매우 안정적이었습니다. (기존 기술들은 70~80% 수준이었습니다.)
- 실시간 대응: 로봇이 상자를 들고 걸을 때, 상자가 살짝 비틀어지거나 예상치 못한 위치에 있어도, 로봇은 즉시 자세를 수정하며 넘어지지 않고 임무를 완수했습니다.

요약

InterReal 은 로봇에게 **"다양한 상황을 미리 경험하게 하는 훈련법"**과 **"상황에 맞춰 점수 기준을 자동으로 바꾸는 똑똑한 코치"**를 제공했습니다. 덕분에 로봇은 이제 단순히 걷는 것을 넘어, 공장이나 가정에서 물건을 다루는 복잡한 일을 인간처럼 유연하고 정확하게 수행할 수 있는 토대를 마련하게 되었습니다.

이 기술은 앞으로 로봇이 우리 일상생활이나 산업 현장에서 더 자연스럽게 일할 수 있는 길을 열어줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 인간형 로봇 (Humanoid Robot) 제어 연구는 주로 걷기, 점프, 춤과 같은 **비상호작용적 전신 제어 (Non-interactive Whole-body Control)**에 집중해 왔습니다. 그러나 실제 산업 현장이나 일상 환경에서는 로봇이 물체와 상호작용하는 인간 - 물체 상호작용 (HOI, Human-Object Interaction) 능력이 필수적입니다.

기존 HOI 관련 접근법의 한계는 다음과 같습니다:

물리 법칙의 부재: 애니메이션 기반의 연구 (InterMimic 등) 는 실제 물리 제약 (마찰, 질량, 접촉 역학 등) 을 충분히 고려하지 않아 실제 로봇 배포가 어렵습니다.
제어 정밀도 및 안정성 부족: 기존 원격 조종 (Teleoperation) 방식은 자율성이 떨어지며, 최근의 전신 제어기들은 손 - 물체 접촉 (Hand-Object Contact) 문제를 고려하지 않아 불안정합니다.
보상 함수 설계의 난제: 복잡한 HOI 태스크에서 여러 보상 신호를 균형 있게 설계하는 것은 매우 어렵고, 수동으로 가중치를 조정하는 것은 비효율적입니다.
일반화 문제: 실제 환경에서의 센서 노이즈나 물체 위치의 변동 (Perturbation) 에 대해 학습된 정책이 쉽게 붕괴되는 문제가 있습니다.

2. 제안 방법론: InterReal (Methodology)

이 논문은 실제 세계 배포를 목표로 하는 통일된 물리 기반 모방 학습 프레임워크인 InterReal을 제안합니다. InterReal 은 크게 두 가지 핵심 구성 요소로 이루어져 있습니다.

A. HOI 모션 증강 (HOI Motion Augmentation)

목적: 물체 위치의 변동과 센서 노이즈에 대한 정책의 일반화 능력을 향상시키기 위함입니다.
과정:
1. 원본 모션 데이터에 물체 위치 오프셋 ( $\Delta p_{xy}$ ) 을 적용합니다.
2. **역운동학 (Inverse Kinematics, IK)**을 사용하여 손과 물체 간의 접촉 세부 사항 (Contact Details) 은 유지한 채, 새로운 팔 관절 각도를 계산합니다.
3. 이를 통해 단일 태스크에 대해 다양한 물체 위치를 가진 여러 모션 데이터셋을 생성하여 학습에 활용합니다.

B. 자동 보상 학습기 (Automatic Reward Learner)

목적: 복잡한 HOI 태스크에서 수동으로 보상 가중치를 조정하는 대신, 메타 학습을 통해 동적으로 최적의 보상 가중치를 학습합니다.
구조:
- 내부 루프 (Inner-loop): PPO(Proximal Policy Optimization) 를 사용하여 특정 HOI 정책 ( $\pi_{hoi}$ ) 을 학습합니다.
- 외부 루프 (Outer-loop): **메타 정책 (Meta-policy, $\mu_{meta}$ )**이 학습됩니다. 이 메타 정책은 SAC(Soft Actor-Critic) 알고리즘을 사용하여, 내부 루프의 학습 진행 상태 (트래킹 오차 등) 를 관찰하고 보상 함수의 가중치 ( $\Theta$ ) 를 동적으로 조정합니다.
- 동작 원리: 메타 정책은 관절 위치, 물체 위치, 링크 위치 등의 핵심 트래킹 오차 지표를 기반으로 보상 가중치를 탐색하고 최적화합니다. 예를 들어, 초기 단계에서는 균형 유지 보상을, 후기 단계에서는 물체 위치 정밀도 보상을 강조합니다.

C. 비대칭 액터 - 크리틱 (Asymmetric Actor-Critic)

실제 배포 시 얻기 어려운 정보 (물체의 속도, 회전, 상세한 상호작용 그래프 등) 는 크리틱 (Critic) 네트워크에만 제공하여 학습을 돕고, 액터 (Actor) 네트워크에는 실제 센서로 얻을 수 있는 정보 (FoundationPose 를 통한 물체 위치 등) 만 입력받아 실제 환경에서의 강인성을 확보합니다.

3. 주요 기여 (Key Contributions)

실제 세계 배포 가능한 통일된 HOI 프레임워크: 물리 시뮬레이션을 기반으로 하되, 실제 로봇 (Unitree G1) 에 배포 가능한 수준의 HOI 제어 정책을 학습합니다.
접촉 제약이 포함된 모션 증강 기법: 역운동학을 활용하여 물체 위치가 변해도 손 - 물체 접촉이 유지되도록 모션을 증강시켜, 외부 교란에 강한 정책을 학습합니다.
메타 학습 기반 자동 보상 설계: 복잡한 보상 함수의 가중치를 수동으로 조정하지 않고, 메타 학습을 통해 태스크 진행 상황에 따라 자동으로 최적화하여 학습 효율성과 성능을 극대화합니다.
실제 로봇 검증: 시뮬레이션뿐만 아니라 Unitree G1 로봇을 이용한 실제 환경 실험을 통해 프레임워크의 유효성과 강인성을 입증했습니다.

4. 실험 결과 (Results)

논문은 **박스 들기 (Box-picking)와 박스 밀기 (Box-pushing) 두 가지 태스크를 통해 기존 방법 (ASAP, InterMimic) 과 비교 평가했습니다.

추적 정확도 (Tracking Accuracy):
- InterReal 은 관절 각도, 링크 위치, 물체 위치 등 모든 주요 지표에서 가장 낮은 추적 오차를 기록했습니다.
- 특히 물체 위치 오차 (Emope) 와 상호작용 그래프 오차 (Emige) 에서 기존 방법 대비 월등히 우수한 성능을 보였습니다.
태스크 성공률 (Task Success Rate):
- 박스 들기: InterReal 96.41% (기존 최고 84.72%)
- 박스 밀기: InterReal 87.45% (기존 최고 79.10%)
- InterReal 은 넘어짐 없이 태스크를 완수하는 성공률이 가장 높았습니다.
실제 환경 배포:
- Unitree G1 로봇에서 실시간 물체 자세 피드백 (FoundationPose 사용) 을 통해 박스를 들어 올리고 밀어내는 데 성공했습니다.
- 물체 위치가 예상과 다를 때에도 정책을 실시간으로 조정하여 태스크를 완수하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 인간형 로봇이 복잡한 물체 상호작용을 수행할 수 있는 실용적인 제어 프레임워크를 제시했다는 점에서 의의가 큽니다.

자율성 확보: 원격 조종에 의존하지 않고, 로봇 스스로 물체의 상태를 인지하고 상호작용할 수 있는 능력을 부여했습니다.
학습 효율성: 보상 함수 설계의 어려움을 메타 학습을 통해 해결함으로써, 복잡한 HOI 태스크의 학습 시간을 단축하고 성능을 극대화했습니다.
실용성: 시뮬레이션과 실제 로봇 간의 격차 (Sim-to-Real Gap) 를 줄이는 기술을 적용하여, 산업 및 서비스 로봇 분야에서 인간형 로봇의 실제 적용 가능성을 높였습니다.

결론적으로 InterReal 은 물리 기반 모방 학습의 한계를 극복하고, 인간형 로봇이 실제 환경에서 정교하고 안정적인 상호작용을 수행할 수 있는 새로운 패러다임을 제시합니다.

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

1. 핵심 비법 1: "만들기 쉬운 연습장" (운동 데이터 증강)

2. 핵심 비법 2: "스마트한 코치" (자동 보상 학습기)

3. 실전 성과: 가상에서 현실까지

요약

1. 문제 정의 (Problem)

2. 제안 방법론: InterReal (Methodology)

A. HOI 모션 증강 (HOI Motion Augmentation)

B. 자동 보상 학습기 (Automatic Reward Learner)

C. 비대칭 액터 - 크리틱 (Asymmetric Actor-Critic)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities