From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 일을 할 때, "지금 얼마나 잘하고 있는지"를 스스로 판단하고 평가할 수 있게 해주는 새로운 기술을 소개합니다.

기존의 로봇이나 AI 는 일을 하는 과정을 단순히 **'관찰자 (Observer)'**처럼 바라만 봤다면, 이 논문에서 제안한 **'PRIMO R1'**은 일을 하는 로봇의 옆에서 **"아, 이 부분은 잘됐는데 저 부분은 아직 안 됐네?"**라고 꼼꼼히 체크하고 평가하는 **'비평가 (Critic)'**로 변신시켰습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제점: "눈만 뜨고 있는 관찰자" vs "생각하는 비평가"

기존의 AI (관찰자):
상상해 보세요. 요리사가 요리를 하고 있는데, 옆에 있는 사람이 **"아, 지금 감자를 깎고 있네. 오이도 썰고 있네."**라고만 말합니다. 하지만 그 요리사가 **"감자를 너무 많이 깎아서 다 버렸네"**라는 실수를 했거나, **"요리 시간이 50% 지났는데 아직 반도 안 됐네"**라는 진행 상황을 정확히 알려주지 못합니다.
기존 AI 는 영상만 보고 "무슨 일이 일어나고 있는지"는 말해주지만, **"목표에 얼마나 가까워졌는지"**를 계산하는 능력은 부족했습니다. 그래서 로봇이 실패해도 "아직 잘하고 있네"라고 착각하거나, 반대로 성공 직전에 "아직 멀었어"라고 오해하는 경우가 많았습니다.

PRIMO R1 (비평가):
이제 옆에 있는 사람이 **"생각하는 비평가"**가 되었습니다.

계획 (Planning): "우선 양파를 다듬고, 썰고, 접시에 담는 순서로 해야 해."
관찰 (Observation): "지금 로봇은 양파를 다듬는 단계는 끝냈는데, 썰기는 아직 시작도 안 했네."
이유 (Reasoning): "음, 전체 작업의 50% 정도는 끝났지만, 마지막 단계인 접시에 담기는 아직 안 했으니 85% 정도 진행된 걸로 봐야겠다."

이처럼 단순히 보는 것을 넘어, "왜 이렇게 진행되었는지"를 논리적으로 추론하게 만든 것이 핵심입니다.

2. 해결책: "시작과 끝을 동시에 보는 안경"

이 기술은 로봇이 일을 할 때 세 가지 정보를 동시에 보게 합니다.

시작 상태 (Init): 일을 하기 전의 깨끗한 주방.
진행 과정 (Video): 로봇이 움직이는 영상.
현재 상태 (Current): 지금 로봇이 하고 있는 모습.

비유하자면:
여행을 갈 때, **출발지 지도 (시작)**와 지금 내 위치 (현재), 그리고 **이동한 경로 (영상)**를 한눈에 비교하는 내비게이션을 쓴 것과 같습니다. 기존 AI 는 '지금 위치'만 보고 "아직 멀었네"라고 추측했지만, PRIMO R1 은 "출발지에서 여기까지 왔으니, 목적지까지 남은 거리는 이 정도야"라고 정확하게 계산할 수 있습니다.

3. 학습 방법: "정답을 알려주지 않고, 결과로 칭찬하기"

이 로봇 비평가를 가르치는 방법은 흥미롭습니다.

기존 방식: 선생님 (사람) 이 "정답은 80% 야"라고 하나하나 알려주며 가르쳤습니다. (지도학습)
PRIMO 방식: 로봇이 스스로 생각해서 답을 내게 한 뒤, **결과가 맞으면 "잘했어!" (보상)**를 주고, 틀리면 "다시 생각해봐"라고 합니다. (강화학습)

이 과정을 반복하면서 로봇은 "어떻게 생각해야 정답에 가까워지는지" 스스로 터득하게 됩니다. 마치 아이가 요리 실수를 반복하다가, "아, 양파를 너무 많이 썰었구나"라고 스스로 깨닫고 실력을 늘리는 것과 같습니다.

4. 놀라운 성과: 작은 두뇌로 거인보다 뛰어난 성능

이 연구에서 만든 **'PRIMO R1'**은 70 억 개의 파라미터 (두뇌 크기) 만 가진 모델입니다. 반면, 비교 대상인 다른 유명한 AI 들은 720 억 개의 파라미터를 가진 거대 모델들이었습니다.

결과: 작은 두뇌를 가진 PRIMO R1 이 거대한 AI 들보다 진행 상황 판단 정확도가 훨씬 높았습니다.
특이점: 훈련받지 않은 새로운 상황 (예: 공장에서 일하는 로봇) 에서도 처음 보는 일을 보고도 "아, 이 작업은 50% 정도 끝났구나"라고 **0 번의 학습 (Zero-shot)**으로 정확하게 판단했습니다.

5. 요약: 왜 이것이 중요한가요?

이 기술은 로봇이 **오래 걸리는 복잡한 일 (예: 집 정리, 공장 조립)**을 할 때, 스스로 "내가 지금 잘하고 있나?", "실수했나?"를 판단하게 해줍니다.

과거: 로봇이 실수해도 AI 는 모르고 계속 일을 시켰음.
미래: 로봇이 "아, 이 부분은 잘못됐네"라고 스스로 깨닫고 수정하거나, 사람에게 "도움이 필요해요"라고 요청할 수 있게 됩니다.

결국 이 논문은 로봇에게 "생각하는 힘"과 "스스로를 평가하는 능력"을 심어주어, 더 똑똑하고 안전한 로봇을 만드는 첫걸음을 뗐다고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 조작 (Robotic Manipulation), 특히 장기적 (Long-horizon) 작업 수행에서 **프로세스 감시 (Process Supervision)**는 핵심적인 과제입니다. 현재 비디오 기반 멀티모달 대규모 언어 모델 (Video MLLMs) 은 다음과 같은 한계를 겪고 있습니다.

수동적 관찰자 (Passive Observer) 의 한계: 기존 모델들은 주로 감독 미세 조정 (SFT) 을 통해 학습되어, "무슨 일이 일어나고 있는지"를 기술하는 데는 능숙하지만, "작업이 최종 목표 대비 얼마나 진행되었는지"를 정량적으로 평가하거나 실패를 감지하는 능력이 부족합니다.
보상 신호의 부재: 희소 보상 (성공/실패 이진 분류) 은 학습에 비효율적이며, 밀집 보상 (작업 진행도) 을 얻기 위해서는 수동 엔지니어링이나 현실에서 불가능한 정답 상태 (Ground-truth) 접근이 필요합니다.
시각적 유사성에 의한 오류: 모델이 실제 작업 성공과 무관하게 시각적 궤적이 성공과 비슷할 때만 높은 진행도를 부여하는 등, 인과적 추론 없이 표면적인 패턴만 인식하는 경향이 있습니다.

2. 방법론 (Methodology)

저자들은 Video MLLMs 을 수동적인 관찰자가 아닌 능동적인 **비평가 (Active Critic)**로 전환하기 위해 PRIMO R1을 제안합니다.

A. 구조적 입력 전략 (Structured Temporal Input)

상태 고정 (State Anchoring): 비디오 시퀀스 ( $V_{seq}$ ) 를 **초기 상태 이미지 ( $I_{init}$ )**와 현재 상태 이미지 ( $I_{curr}$ ) 사이에 명시적으로 고정합니다.
효과: 이는 추상적인 시간적 지각을 구체적인 상태 정렬 (State-alignment) 검증 작업으로 변환하여, 작업의 시작과 끝을 명확히 정의함으로써 진행도 추정의 정확도를 높입니다.

B. 강화학습 기반 추론 유도 (RL for Reasoning Elicitation)

Chain-of-Thought (CoT) 생성: 단일 스칼라 값 예측이 아닌, **계획 (Planning) → 관찰 (Observation) → 추론 (Reasoning)**의 명시적 사고 과정을 거치게 합니다.
GRPO (Group Relative Policy Optimization):
- 값 함수 (Value Function) 를 별도로 학습할 필요 없이, 샘플링된 출력 그룹 내의 상대적 성능을 기반으로 베이스라인을 추정합니다.
- 보상 함수:
  1. 형식 보상 (Format Reward): CoT 태그와 정답 태그를 엄격히 따르는지 확인.
  2. 정확도 보상 (Accuracy Reward): 예측된 진행도와 실제 정답 간의 오차를 기반으로 선형 감쇠 보상을 부여.
- 이 과정을 통해 모델은 스스로 오류를 수정하고 (Self-correction), 작업 완료에 대한 인과적 논리를 학습하게 됩니다.

C. 데이터셋 및 벤치마크

PRIMO Dataset: SFT 및 RL 후학습을 위한 CoT 주석이 포함된 116k (SFT) 및 182k (RL) 규모의 데이터셋. (AgiBot, BEHAVIOR, RoboTwin 등 다중 소스 통합)
PRIMO Bench: 도메인 내 (In-Domain) 및 도메인 외 (Out-of-Domain, Cross-task/Environment) 일반화 능력을 평가하는 벤치마크.

3. 주요 기여 (Key Contributions)

PRIMO R1 프레임워크: 7B 파라미터 규모의 모델로, Video MLLMs 을 해석 가능한 비평가로 변환하여 작업 진행도 추정 및 실패 감지에서 SOTA 성능을 달성했습니다.
구조적 시간 입력 전략: 초기/현재 상태 이미지를 비디오에 명시적으로 연결하여, 기존 특화 모델 대비 평균 절대 오차 (MAE) 를 50% 감소시켰습니다.
RL 을 통한 일반화: 진행도 추론을 최적화하는 것이 실패 감지 (Failure Detection) 에 필요한 시간적 맥락 표현을 내재적으로 구축함을 증명했습니다.
PRIMO Dataset & Bench: 작업 진행도 추정을 위한 대규모 CoT 데이터셋과 일반화 능력을 평가하는 벤치마크를 공개했습니다.

4. 실험 결과 (Results)

A. 작업 진행도 추정 (Task Progress Estimation)

성능: 7B 모델인 PRIMO R1 은 평균 상대 정확도 (MRA) 82.90, 평균 절대 오차 (MAE) 15.52를 기록했습니다.
비교:
- 72B 규모의 일반 MLLM (Qwen2.5-VL-72B) 보다 MRA 에서 9.10 포인트 더 높았습니다.
- 기존 특화 모델 (Video R1 7B 등) 대비 MAE 를 약 50% 감소시켰습니다.
- Sim-to-Real: 시뮬레이션과 실제 인간형 로봇 (Real Humanoid) 환경 간의 격차를 극복하며, 실제 환경에서도 높은 정확도 (MRA 72.32) 를 유지했습니다.

B. 실패 감지 (Failure Detection)

RoboFail 벤치마크: PRIMO R1 은 **67.0%**의 정확도를 기록하여, OpenAI o1(61.0%), GPT-4o(63.0%) 등 폐쇄형 대형 모델들을 능가했습니다.
의의: 연속적인 진행도 추론을 최적화하는 것이 이산적인 실패 감지 능력의 제로샷 (Zero-shot) 일반화로 이어짐을 입증했습니다.

C. 추론 효율성

Cosmos-Reasoning 7B 와 같은 다른 추론 모델에 비해 토큰 수와 지연 시간 (Latency) 이 적으면서도 훨씬 높은 정확도를 보여, 실시간 로봇 제어에 적합한 효율성을 가집니다.

5. 의의 및 결론 (Significance)

이 논문은 로봇 조작 분야에서 강화학습을 통해 MLLM 의 추론 능력을 유도함으로써, 단순한 시각 인식을 넘어 작업의 논리적 진행을 평가하고 실패를 감지할 수 있는 능동적인 에이전트를 구축할 수 있음을 증명했습니다.

패러다임 전환: 수동적 관찰자 (Observer) 에서 능동적 비평가 (Critic) 로의 전환을 통해, 로봇이 스스로 작업 상태를 진단하고 보상을 학습할 수 있는 기반을 마련했습니다.
자율성 증대: 장기적 작업에서 정교한 보상 신호를 자동으로 생성할 수 있게 되어, 향후 자율 로봇 정책 학습 (Policy Learning) 의 핵심 요소로 작용할 것으로 기대됩니다.
실용성: 7B 규모의 경량 모델로도 초대형 모델보다 우수한 성능을 발휘하여, 실제 로봇 시스템에 배포 가능한 솔루션을 제시했습니다.