Each language version is independently generated for its own context, not a direct translation.

로봇에게 '생각하는 법'을 가르치는 새로운 방법: ICLR 소개

이 논문은 로봇이 새로운 일을 배울 때, 단순히 **"손만 움직이는 법"**을 외우는 것이 아니라 **"왜 그렇게 움직여야 하는지"**를 시각적으로 생각할 수 있게 해주는 혁신적인 방법 (ICLR) 을 소개합니다.

기존의 로봇 학습 방식과 이 새로운 방식의 차이를 이해하기 쉽게 비유해 설명해 드릴게요.

1. 문제: 로봇은 왜 멍청할까? (기존 방식의 한계)

기존의 로봇 학습 방식은 마치 무작위 암기를 하는 학생과 비슷합니다.

상황: 선생님이 "이 dumpling(만두) 을 빨간 상자에 넣어"라고 시키면, 로봇은 "아, 선생님이 이렇게 손 움직였구나"라고 손의 움직임 (동작) 만을 그대로 따라 합니다.
문제점: 만약 실험실 환경이 조금만 바뀌거나, 만두가 다른 곳에 있거나, 상자가 조금 다르게 생기면 로봇은 당황합니다. 왜냐하면 로봇은 **"무엇을 해야 하는지 (목적)"**를 이해하지 못하고, **"어떻게 움직였는지 (행동)"**만 외웠기 때문입니다.
- 비유: 친구가 "커피를 가져와"라고 했을 때, 친구가 컵을 들었던 손 모양만 기억하고, 컵이 없으면 아무것도 못 하는 상황과 같습니다.

2. 해결책: ICLR (시각적 추론을 더하다)

이 논문에서 제안한 ICLR은 로봇에게 **생각의 과정 (추론)**을 함께 가르칩니다. 마치 명예로운 학생이 문제를 풀 때, 답만 적는 게 아니라 풀이 과정을 적어내는 것과 같습니다.

핵심 아이디어: 로봇에게 "만두를 잡아서 빨간 상자에 넣는 미래의 경로 (시각적 추론)"를 먼저 그려보게 한 뒤, 그 그림을 보고 실제 행동을 하도록 합니다.
어떻게 작동하나요?
1. 시각적 추론 (Visual Reasoning): 로봇은 카메라 화면을 보며 "아, 지금 이 만두를 잡으려면 손이 여기로 가야 하고, 그 다음 저기로 이동해야 해"라고 이미지 위에 선 (선형) 을 그려가며 미래 경로를 상상합니다.
2. 행동 실행: 그 생각 (그림) 이 완성되면, 비로소 실제 손 (그립퍼) 을 움직여 만두를 집어 넣습니다.
비유:
- 기존 로봇: "친구가 이렇게 걸었으니 나도 이렇게 걷자." (눈을 감고 따라가는 맹목적인 모방)
- ICLR 로봇: "친구가 저기 가려고 길을 찾고, 장애물을 피해서 이동했구나. 나도 저 길을 따라가야겠다." (지도와 나침반을 보고 목적지를 향해 걷는 지능적인 모방)

3. 실험 결과: 얼마나 잘할까요?

연구팀은 시뮬레이션 (가상 공간) 과 실제 로봇을 이용해 실험했습니다.

결과: 새로운 환경이나 낯선 물건 (예: 훈련 때는 안 보던 '원숭이' 인형이나 '감자' 등) 이 등장해도, **생각하는 과정 (추론)**을 포함한 로봇이 훨씬 더 잘 성공했습니다.
왜 그런가요? 로봇이 "무엇을 해야 하는지"를 시각적으로 이해했기 때문에, 상황 (물건의 위치, 장애물 등) 이 조금 변해도 유연하게 대처할 수 있었습니다.

4. 재미있는 발견: "생각"을 생략해도 될까?

흥미로운 점은, 로봇이 훈련 중에는 "생각 (추론)"을 하도록 가르쳤지만, 실제 작동할 때 생각 과정을 생략하고 행동만 하도록 했을 때 (Dropout) 시뮬레이션에서는 오히려 더 잘하기도 했습니다.

이유: 가상 공간에서는 환경이 너무 단순해서 로봇이 생각 없이도 "내면화된 직감"으로 해결할 수 있었기 때문입니다.
하지만 실제 세상에서는? 실제 세상 (Real-world) 은 훨씬 복잡하고 변수가 많습니다. 그래서 생각하는 과정 (추론) 을 생략하지 않고, 매번 경로를 그려가며 행동하는 것이 훨씬 더 강력하고 안정적이었습니다.

5. 결론: 로봇의 지능을 한 단계 업그레이드

이 연구는 로봇에게 **"행동 (Action)"**만 가르치는 것을 넘어, **"왜 그 행동을 해야 하는지 (Intent)"**를 시각적으로 이해하고 추론하는 능력을 심어주었습니다.

핵심 메시지: 로봇이 새로운 일을 배울 때, 단순히 "손을 움직이는 법"을 외우는 게 아니라 **"미래를 상상하고 계획을 세우는 법"**을 배운다면, 훨씬 더 똑똑하고 유연한 로봇이 될 수 있습니다.

이 기술은 앞으로 로봇이 복잡한 집안일이나 공장에서 예상치 못한 상황에 맞닥뜨렸을 때, 인간처럼 유연하게 대처할 수 있는 기반이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 로봇 공학에서 데이터 부족은 주요 과제입니다. 대규모 시연 데이터를 수집하는 것은 시간 소모적이고 비용이 많이 들며 안전 위험이 따릅니다. 이를 해결하기 위해 **문맥 기반 모방 학습 (In-Context Imitation Learning)**이 주목받고 있으며, 이는 추가 학습 없이 소수의 시연 (Prompt) 을 통해 새로운 작업을 수행할 수 있게 합니다.
한계점: 기존 문맥 기반 모방 학습 방법들은 주로 상태 - 행동 (State-Action) 궤적에만 의존합니다. 즉, 로봇의 상태 (관절 각도, 카메라 이미지) 와 저수준 행동만 입력으로 받아 다음 행동을 예측합니다.
핵심 문제: 복잡하고 모호한 환경 (많은 객체가 존재하거나 여러 가능한 작업 목표가 공존하는 상황) 에서 동일한 행동이 서로 다른 의도 (Intent) 에 부합할 수 있습니다. 이러한 경우, 행동 자체만으로는 작업의 고수준 의도를 파악하기 어렵습니다. 기존 방법들은 작업 수행을 유도하는 **추론 과정 (Reasoning Process)**을 명시적으로 표현하지 못해, 복잡한 작업에서 성능이 저하되거나 일반화 능력이 떨어지는 문제가 발생합니다.

2. 방법론 (Methodology)

저자들은 **ICLR (In-Context Imitation Learning with Visual Reasoning)**이라는 새로운 프레임워크를 제안합니다. 이는 대규모 언어 모델 (LLM) 의 'Chain-of-Thought' 아이디어를 로봇 공학에 적용하여, **구체화된 시각적 추론 (Embodied Visual Reasoning)**을 시연 프롬프트와 정책 추론에 통합합니다.

A. 핵심 아이디어: 시각적 추론 흔적 (Visual Reasoning Traces)

단순한 상태 - 행동 쌍에 더해, 이미지 공간에서 예상되는 미래 로봇 궤적을 나타내는 구조화된 시각적 추론 흔적을 프롬프트에 추가합니다.
이 흔적은 로봇 그리퍼의 위치를 픽셀 좌표로 표현한 **폴리라인 (Polyline, 5 개의 점)**으로 구성됩니다. 이는 작업의 고수준 의도 (예: "물체 A 를 잡아서 B 로 이동") 를 시각적으로 명시하여 행동 예측을 안내합니다.
생성 방식:
- 시뮬레이션: 로봇의 프로프리오셉션 (Proprioception) 과 카메라 파라미터를 이용해 3D 위치를 2D 픽셀 좌표로 변환합니다.
- 실제 로봇: 카메라 파라미터가 없는 환경에서는 **Molmo2 (VLM)**를 사용하여 "로봇 그리퍼를 가리키라"는 명령어로 이미지 내 그리퍼 위치를 자동으로 탐지하고 추론 흔적을 생성합니다.

B. 모델 아키텍처

구조: Llama2 스타일의 **인과적 트랜스포머 (Causal Transformer)**를 기반으로 합니다.
입력/출력: 상태 (State), 추론 흔적 (Reasoning Trace), 행동 (Action) 을 위한 각각의 인코더를 사용하여 토큰화합니다.
- State Encoder: 비전 트랜스포머 (ViT) 와 MLP 를 사용하여 다중 뷰 이미지와 프로프리오셉션을 인코딩합니다.
- Reasoning Encoder: MLP 를 사용하여 시각적 추론 흔적 (수치 벡터) 을 인코딩합니다.
- Action Encoder: 행동 토큰을 인코딩합니다.
학습 방식: 모든 모달리티 토큰을 교차 배치하여 단일 시퀀스로 만들고, Next-Token Prediction을 통해 추론 흔적과 행동을 순차적으로 (Autoregressive) 예측합니다.
- 손실 함수: $L = L_{action} + 0.3 \times L_{reasoning}$ (행동 예측과 추론 흔적 예측의 가중 합).
- 정규화 (Reasoning Dropout): 학습 시에는 타겟 궤적의 일부 추론 흔적을 마스킹하여, 모델이 추론 흔적에만 과도하게 의존하지 않고 행동 예측 능력을 유지하도록 합니다. 이는 추론 단계가 생략된 추론 (Inference-time Reasoning Dropout) 을 가능하게 합니다.

C. 추론 (Inference) 프로세스

사용자 (또는 원격 조작) 가 제공한 프롬프트 시연 (Augmented Prompt) 을 입력받습니다.
현재 상태를 기반으로 모델이 다음 시각적 추론 흔적을 먼저 생성합니다.
생성된 추론 흔적을 조건으로 하여 **다음 행동 블록 (Action Chunk)**을 예측합니다.
행동을 실행하고 새로운 상태를 받아 이 과정을 반복합니다 (Closed-loop).

3. 주요 기여 (Key Contributions)

ICLR 프레임워크 제안: 시연 프롬프트와 정책 추론에 명시적인 구체화된 시각적 추론을 통합한 최초의 문맥 기반 모방 학습 방법 중 하나입니다.
통합 학습: 단일 트랜스포머 내에서 추론 과정 (시각적 궤적) 과 실행 행동 (저수준 제어) 을 동시에 학습하여, 로봇이 행동뿐만 아니라 그 이면의 '사고 과정'까지 모방하도록 합니다.
광범위한 검증: 시뮬레이션 (LIBERO 벤치마크) 과 실제 로봇 (Franka Research 3) 환경 모두에서 다양한 작업 (찌르기, 집어 넣기 등) 에 대해 실험을 수행했습니다.
성능 및 일반화: 기존 방법들 (ICRT 등) 과 비교하여 미지의 작업과 새로운 객체 구성에서 일관되게 높은 성공률을 보였습니다.

4. 실험 결과 (Results)

A. 시뮬레이션 (LIBERO-Object, LIBERO-90)

성능: 제안된 모델 (Ours) 과 추론 드롭아웃 변형 (Ours Dropout) 이 모든 벤치마크에서 기존 최첨단 방법 (ICRT) 보다 압도적으로 높은 성공률을 기록했습니다.
- LIBERO-90 평균 성공률: Ours Dropout (54.05%) > Ours (33.34%) > ICRT (16.27%).
특이점: 시뮬레이션에서는 추론 단계가 생략된 'Dropout' 모델이 전체 모델보다 더 안정적인 성능을 보였습니다. 이는 시뮬레이션 데이터의 다양성이 낮아 추론 흔적 생성이 오히려 노이즈로 작용할 수 있기 때문으로 분석되었습니다.

B. 실제 로봇 실험 (Real-World)

환경: Franka 로봇 암, UMI 그리퍼, GELLO 원격 조작 시스템 사용.
작업: 6 가지 '찌르기 (Poking)' 작업과 6 가지 '집어 넣기 (Pick-and-Place)' 작업 (미지의 객체 및 구성 포함).
성능: 실제 환경에서는 **전체 모델 (Ours)**이 Dropout 모델보다 더 높은 성공률을 기록했습니다.
- 이유: 실제 환경은 시뮬레이션보다 훈련/테스트 간 환경 차이가 크고 데이터 다양성이 높기 때문에, 명시적인 시각적 추론이 행동 예측을 안내하는 데 결정적인 역할을 합니다.
- 예시: '토마토를 회색 그릇에 넣기' 작업에서 전체 모델은 60% 성공률을 기록한 반면, ICRT 는 22.5% 에 그쳤습니다.

C. 분석 (Ablation & Failure Analysis)

프롬프트 다양성: 프롬프트 시연의 수나 유형 (방해물 유무) 에 관계없이 ICLR 모델이 가장 안정적인 성능을 보였습니다.
실패 원인 분석: 실패 사례 중 시각적 추론 오류 (Visual trace errors) 는 약 40~45% 를 차지했으나, 주된 실패 원인은 **그립 실패 (Grasp failure)**나 **배치 실패 (Placement failure)**와 같은 저수준 제어 문제였습니다. 이는 추론이 작업 의도를 올바르게 파악하고 있음을 시사합니다.
효율성: 매 단계마다 추론을 수행하지 않고 8 단계마다 수행하는 변형 모델도 전체 모델과 유사한 성능을 내며, 추론 빈도를 줄여도 성능을 유지할 수 있음을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

의의: 이 연구는 로봇이 단순히 행동을 모방하는 것을 넘어, 작업의 의도를 시각적으로 추론하고 이를 행동에 반영하는 능력을 학습할 수 있음을 증명했습니다. 이는 복잡하고 모호한 환경에서 로봇의 적응성과 견고성을 크게 향상시킵니다.
미래 방향: 시각적 추론 외에도 경계 상자 (Bounding boxes), affordance, 깊이 정보 등 다른 형태의 추론을 통합하거나, 인간 비디오 시연이나 다른 로봇 형태 (Embodiment) 에 대한 문맥 학습으로 확장할 수 있는 가능성을 제시합니다.
결론: ICLR 은 시뮬레이션과 실제 로봇 환경 모두에서 기존 방법들을 크게 앞서는 성능을 보여주었으며, **구체화된 시각적 추론 (Embodied Visual Reasoning)**이 로봇 문맥 학습 시스템의 견고성과 일반화 능력을 향상시키는 유망한 방향임을 입증했습니다.

ICLR: In-Context Imitation Learning with Visual Reasoning