LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

이 논문은 복잡한 장거리 조작 작업을 위해 이동과 상호작용을 분리하고 객체 중심의 VLA 를 활용하여 제로샷 일반화와 실패 복구 능력을 갖춘 모듈형 프레임워크 'LiLo-VLA'를 제안하며, 시뮬레이션 및 실제 환경에서 기존 모델보다 뛰어난 성능을 입증했습니다.

Yue Yang, Shuo Cheng, Yu Fang, Homanga Bharadhwaj, Mingyu Ding, Gedas Bertasius, Daniel Szafir

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 딜레마: "요리사"가 되고 싶은 로봇

우리가 로봇에게 "냉장고에서 계란을 꺼내서 프라이팬에 넣고, 토마토를 다져서 넣은 후, 소금도 뿌려줘"라고 시키면 어떨까요?
기존의 최신 로봇 기술 (VLA 모델) 은 매우 똑똑한 요리사처럼 보이지만, 두 가지 치명적인 약점이 있었습니다.

  1. 순서 기억만 잘 하는 '암기왕': "계란 -> 토마토 -> 소금" 순서로 연습만 했다면, "토마토 -> 계란" 순서로 시키면 당황해서 아무것도 못 합니다. (새로운 조합을 못 함)
  2. 작은 실수에도 무너지는 '연약한 심약함': 계란을 떨어뜨렸을 때, 로봇은 "아, 내가 계란을 떨어뜨렸네"라고 생각하기보다, "내가 처음부터 잘못 시작했나?"라고 생각하며 전체 작업을 포기하거나 계속 같은 실수를 반복합니다. (실수 연쇄 발생)

💡 LiLo-VLA 의 해결책: "전문가 팀"으로 바꾸기

이 연구팀은 로봇을 혼자서 모든 일을 하려는 1 인 기업에서, 각자 전문 분야가 있는 팀으로 바꾸는 아이디어를 제시했습니다.

1. 두 명의 전문가 (모듈화)

LiLo-VLA 는 로봇의 작업을 두 단계로 나누어 서로 다른 두 명의 전문가가 맡게 합니다.

  • 🚚 이동 전문가 (Reaching Module): "운전 기사"

    • 역할: 로봇 팔을 목적지 (예: 냉장고 앞) 까지 안전하게 이동시킵니다.
    • 특징: 이 부분은 **기존의 정교한 수학 알고리즘 (운동 계획)**을 사용합니다. AI 가 새로 배우는 게 아니라, 이미 완벽한 지도를 보고 길을 찾는 방식입니다.
    • 비유: "집에서 식당까지 가는 길"을 GPS 로 정확히 찾는 역할입니다.
  • 🤲 조작 전문가 (Interaction Module): "손재주 좋은 요리사"

    • 역할: 목적지에 도착한 후, 계란을 잡고 깨는 등 정교한 손놀림을 합니다.
    • 특징: 이 부분은 **AI (VLA)**가 담당하지만, 오직 계란만 보게 만듭니다. 냉장고 문이나 주변 식탁 같은 '잡다한 배경'은 모두 검은색으로 가려버립니다.
    • 비유: 요리사가 조리할 때 주변 소음이나 다른 사람 시선을 무시하고 오직 계란에만 집중하는 상태입니다.

2. 실수하면 다시 시작하는 '리셋 버튼' (Closed-Loop Recovery)

기존 로봇은 계란을 떨어뜨리면 "아, 내가 잘못했어"라고 생각하며 전체 작업을 중단하거나, 같은 실수를 반복했습니다.
하지만 LiLo-VLA 는 다음과 같이 행동합니다.

  • "아, 계란을 떨어뜨렸네?没关系 (괜찮아)."
  • 운전 기사가 다시 로봇 팔을 안전한 위치로 되돌려 보냅니다 (리셋).
  • 요리사는 다시 계란을 잡으러 갑니다.
  • 핵심: 실수가 발생해도 작업 전체를 포기하지 않고, 그 단계만 다시 시작할 수 있습니다.

🌟 이 기술이 왜 대단한가요? (일상적인 비유)

1. 새로운 요리도 해낼 수 있어요 (Zero-Shot Compositional Generalization)

  • 기존 로봇: "김치찌개" 레시피만 배웠다면, "김치볶음밥"을 시키면 못 합니다.
  • LiLo-VLA: "김치"를 다루는 법과 "볶음"을 하는 법을 따로 배웠다면, "김치볶음밥"을 처음 들어도 이 두 가지를 조합해서 바로 해냅니다. 로봇이 새로운 순서나 새로운 조합을 본 적 없어도, 배운 기본 기술들을 섞어서 해냅니다.

2. 주변이 시끄러워도 집중해요 (Robustness)

  • 기존 로봇: 주방에 사람이 많이 오가거나 물건이 어지러지면, 로봇은 "어디로 가야 하지?"라고 혼란에 빠집니다.
  • LiLo-VLA: 요리사 (조작 모듈) 는 오직 손에 든 계란만 보게 되어 있습니다. 주변이 어떻게 변하든, 계란만 보면 되므로 실수할 확률이 매우 낮습니다.

3. 16 단계의 긴 작업도 가능해요 (Long-Horizon)

  • 기존 로봇: 3~4 단계만 하면 실수가 쌓여서 실패합니다.
  • LiLo-VLA: 16 단계의 긴 요리 과정 (Ultra-Long) 을 거뜬히 해냅니다. 중간에 실수가 나면 그 부분만 다시 하면 되니까, 전체가 무너지지 않습니다.

📊 결과는 어땠나요?

  • 시뮬레이션 (가상 환경): 21 가지의 매우 어려운 과제를 시켰을 때, 기존 최고 성능 로봇 (Pi0.5) 이 28% 만 성공한 반면, LiLo-VLA 는 69% 를 성공했습니다. (약 2.5 배 더 잘함!)
  • 실제 로봇 (현실 세계): 실제 로봇 팔을 이용해 8 단계의 복잡한 작업을 시켰을 때, 85% 의 성공률을 기록했습니다. 배경이 복잡하고 순서가 바뀌어도 잘 해냈습니다.

🎯 한 줄 요약

"LiLo-VLA 는 로봇에게 '운전'과 '조작'을 분리하고, 실수하면 그 부분만 다시 시작하게 함으로써, 복잡한 일을 실수 없이 새로운 상황에서도 척척 해내는 '튼튼한 로봇'을 만들었습니다."

이 기술은 앞으로 우리가 로봇에게 "방을 정리해줘", "설거지해줘"처럼 복잡하고 긴 지시를 내릴 때, 로봇이 덜 헷갈리고 더 잘 해낼 수 있게 해줄 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →