Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

이 논문은 VLM(고수준 추론) 과 VLA(저수준 실행) 의 장점을 결합하고 경량화된 비전 기반 '비평가'가 예외 상황에 따라 두 시스템을 동적으로 전환하도록 하여, 장기적 로봇 조작 작업의 견고성과 자율성을 획기적으로 향상시킨 'Critic in the Loop' 프레임워크를 제안합니다.

Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "명령을 내리는 셰프, 빠르게 움직이는 조리사, 그리고 감시하는 비평가"

기존의 로봇들은 보통 두 가지 방식 중 하나만 썼습니다.

  1. 생각만 많은 로봇 (VLM): 모든 동작을 하나하나 머리로 계산해서 명령을 내립니다. 하지만 머리가 너무 무거워서 움직이는 속도가 매우 느립니다. (예: "칼을 들어야지... 어? 칼이 어디 있지?..." 하다가 요리가 다 식어버림)
  2. 행동만 빠른 로봇 (VLA): 머리는 거의 쓰지 않고 눈으로 보고 손이 가는 대로 빠르게 움직입니다. 하지만 복잡한 일이 생기면 당황해서 엉뚱한 행동을 하거나 멈춰버립니다. (예: "아이스크림을 꺼내라"고 했더니 냉장고 문을 열어놓고 멈춤)

이 논문은 이 두 가지를 합쳐서 세 명의 팀원으로 구성된 새로운 시스템을 만들었습니다.

1. System 2: "두뇌 (The Brain)" - 셰프

  • 역할: 전체적인 메뉴를 구상하고 큰 그림을 그립니다. "먼저 양파를 썰고, 그다음 고기를 볶아라" 같은 고차원적인 계획을 세웁니다.
  • 특징: 아주 똑똑하지만, 계산이 느려서 매 순간마다 명령을 내리면 로봇이 멈추게 됩니다. 그래서 필요할 때만 깨어납니다.

2. System 1: "소뇌 (The Cerebellum)" - 조리사

  • 역할: 셰프의 명령을 받아서 실제로 손과 발을 빠르게 움직입니다. "양파를 3mm 두께로 썰어라" 같은 구체적인 동작을 연속적으로 수행합니다.
  • 특징: 반응 속도가 매우 빨라 (초당 20 회 이상) 실시간으로 물건을 잡거나 놓을 수 있습니다. 하지만 "왜 썰어야 하지?" 같은 깊은 생각은 못 합니다.

3. System 3: "비평가 (The Critic)" - 이 시스템의 핵심!

  • 역할: 주방을 계속 감시하는 감시자입니다. 셰프나 조리사가 아닌, 독립적인 제 3 의 눈입니다.
  • 무엇을 하나요?
    • 진행 상황 체크: "양파를 다 썰었나?"를 계속 확인합니다.
    • 비상 신호 (Critic): 만약 양파를 썰다가 칼이 미끄러져서 바닥에 떨어지거나, 로봇이 같은 동작을 반복하며 멈춰버리면 (Stagnation), 즉시 "STOP! 사고 발생!" 또는 **"이대로는 안 돼!"**라는 신호를 보냅니다.
    • 규칙 적용: "만약 10 초 동안 아무 일도 안 일어나면, 로봇이 꽉 막힌 거야. 팔을 당겨서 다시 시작해!" 같은 인간의 직관적인 규칙도 적용합니다.

🚀 이 시스템이 어떻게 작동할까요? (실제 상황)

가상 현실에서 로봇이 **"테이블에 접시를 정리해"**라는 복잡한 지시를 받았다고 상상해 보세요.

  1. 계획 단계 (셰프 깨어남): 비평가가 "아직 시작도 안 했네"라고 보고하면, **두뇌 (셰프)**가 깨어납니다. "먼저 큰 접시를 쌓고, 그다음 작은 그릇을 쌓아라"라고 계획을 세웁니다.
  2. 실행 단계 (조리사 활동): **소뇌 (조리사)**가 이 명령을 받아 빠르게 접시를 들어 옮깁니다. 이때 두뇌는 잠들어 있습니다. (계속 생각하면 너무 느리니까요).
  3. 비평가의 감시: 비평가는 로봇이 접시를 옮기는 모습을 계속 봅니다.
    • 상황 A (원활함): "접시가 잘 쌓였네." -> 비평가는 아무 말 안 하고 소뇌가 계속 일하게 둡니다.
    • 상황 B (사고 발생): 로봇이 접시를 떨어뜨렸습니다! -> 비평가가 즉시 "사고 발생 ()!" 신호를 보냅니다.
    • 상황 C (멈춤): 로봇이 접시를 잡으려다 같은 자리에서 10 초를 맴돕니다. -> 비평가가 "멈춤 (Stagnation) 감지! 팔을 당겨라!"라고 인간적인 규칙을 적용해 로봇을 초기화합니다.
  4. 재계획: 비평가가 신호를 보내면, 두뇌가 다시 깨어나서 "아, 접시가 떨어졌네. 다시 잡아서 쌓아야겠다"라고 새로운 계획을 세우고 소뇌에게 전달합니다.

✨ 왜 이 방식이 특별한가요?

  1. 빠르고 똑똑함: 평소에는 빠른 '소뇌'가 일하고, 문제가 생길 때만 느리지만 똑똑한 '두뇌'를 부릅니다. 그래서 속도도 빠르고 지능도 높습니다.
  2. 실수 복구 능력: 로봇이 길을 잃거나 사고가 나면, 그냥 멈추는 게 아니라 **비평가가 알아서 "이건 안 돼, 다시 생각해"**라고 알려주어 스스로 고쳐 나갑니다.
  3. 예상치 못한 상황 (OOD) 대처: 훈련할 때 보지 못한 상황 (예: 왼쪽에 있는 컵을 잡아야 하는 상황) 이 와도, 비평가가 "아, 오른쪽 팔로는 안 되네. 왼쪽 팔로 바꿔야겠다"라고 판단하여 인간처럼 유연하게 대처합니다.
  4. 데이터 자동화: 로봇에게 일을 가르치기 위해 사람이 일일이 "이건 접시 잡기, 저건 그릇 쌓기"라고 라벨을 붙이는 수고를 덜어줍니다. 비평가와 AI 가 자동으로 데이터를 정리해 줍니다.

📝 한 줄 요약

"로봇에게 '생각하는 두뇌', '빠르게 움직이는 손', 그리고 '실수를 감시하고 고쳐주는 비평가'를 동시에 심어주어, 복잡한 일도 실수 없이 스스로 해결하게 만든 혁신적인 시스템입니다."

이 기술은 앞으로 집안일을 도와주는 로봇이나 공장에서 복잡한 조립을 하는 로봇이 훨씬 더 똑똑하고 안전하게 일할 수 있는 기반이 될 것입니다.