Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

이 논문은 레이블이 지정되지 않은 미분할 데모에서 기호 추상화와 목표 지향적 기술을 공동으로 학습하여, 동적 환경에서 실시간 오류 복구와 구성적 일반화를 동시에 달성하는 'Symskill'이라는 통합 프레임워크를 제안합니다.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

SymSkill: 로봇이 '생각'과 '손기술'을 동시에 배운다는 이야기

이 논문은 로봇이 복잡한 일을 할 때, 단순히 "보이는 대로 따라 하는 것"을 넘어, 상황을 이해하고(상징), 유연하게 대처하는(기술) 능력을 스스로 터득하는 새로운 방법 'SymSkill'을 소개합니다.

기존의 로봇 학습 방식은 두 가지 큰 한계가 있었습니다.

  1. 완벽한 모방 (Imitation Learning): 로봇이 인간이 하는 동작을 그대로 따라 하기는 잘하지만, 상황이 조금만 바뀌면 당황합니다. 마치 "레시피를 외운 요리사"처럼, 재료가 조금만 달라지면 요리를 못 하는 것과 같습니다.
  2. 엄격한 계획 (TAMP): 로봇이 논리적으로 계획을 세우는 방식은 유연하지만, 계산이 너무 느려서 실시간으로 대처하기 어렵습니다. 마치 "매우 똑똑하지만 계산기를 두드리는 데 10 분 걸리는 수학 선생님"처럼, 일이 급할 때 따라주지 못합니다.

SymSkill은 이 두 가지의 장점을 합쳐, 로봇이 5 분짜리 장난감 놀이 영상만 보고도 복잡한 일을 해낼 수 있게 합니다.


🧩 핵심 개념: "레고 블록"과 "요리사"의 만남

이 시스템을 이해하기 위해 두 가지 비유를 들어보겠습니다.

1. 상징 (Symbol) = "레고 블록의 이름표"

로봇은 세상을 무작위로 보는 게 아니라, 사물 간의 관계를 이름표로 붙입니다.

  • 기존 방식: "그릇 안에 사과가 있다"는 사실을 숫자나 좌표로만 기억합니다.
  • SymSkill 방식: "사과가 그릇 안에 있다"는 것을 **'사과-그릇-포함'**이라는 하나의 레고 블록으로 인식합니다.
  • 비유: 로봇은 사물을 개별적인 물건이 아니라, 서로 연결되는 레고 블록처럼 생각합니다. "문 열기", "뚜껑 닫기" 같은 블록들을 조합하면 복잡한 일 (예: 냉장고에서 치즈 꺼내서 접시에 올리기) 을 만들 수 있습니다.

2. 기술 (Skill) = "요리사의 손기술"

로봇은 각 레고 블록을 실행할 때, 고정된 동작이 아니라 유연한 손기술을 사용합니다.

  • 기존 방식: "손을 A 지점에서 B 지점으로 1 초 동안 움직여라"라고 정해두면, 중간에 장애물이 생기면 부딪힙니다.
  • SymSkill 방식: "사과를 그릇에 넣는 손기술"을 배웁니다. 이때 손기술은 자석처럼 작동합니다. 목표 지점을 향해 자연스럽게 끌려가며, 중간에 방해물이 있거나 손이 흔들려도 스스로 다시 목표 지점으로 돌아옵니다.
  • 비유: 마치 물이 그릇으로 흐르듯, 로봇의 손은 목표물을 향해 자연스럽게 움직입니다. 만약 누군가 로봇의 팔을 살짝 밀어도, 로봇은 그 힘에 휩쓸리지 않고 다시 원래 목표 (그릇) 로 돌아갑니다.

🚀 SymSkill 이 어떻게 배우나요? (3 단계 과정)

로봇은 인간의 "장난감 놀이" 영상을 보고 학습합니다.

1 단계: 상황 파악 (무엇이 움직였을까?)
로봇은 영상을 보고 "아, 이 사람은 바나나접시에 올리려고 했구나"라고 추측합니다. 여기서 중요한 건 **VLM(시각 언어 모델)**이라는 AI 가 도움을 줍니다. 하지만 로봇은 실시간으로 AI 의 말을 기다리는 게 아니라, 학습 단계에서 한 번만 "어떤 물체가 기준이 되는가?"를 물어보고 그 다음부터는 스스로 판단합니다.

2 단계: 규칙 만들기 (레고 블록 조립)
로봇은 영상을 분석해 규칙을 만듭니다.

  • "뚜껑을 열려면 먼저 손이 뚜껑 위에 있어야 해." (조건)
  • "뚜껑을 열면, 뚜껑은 열리고 손은 열려 있어." (결과)
    이렇게 조건과 결과를 레고 블록 (상징) 으로 저장합니다.

3 단계: 손기술 다듬기 (요리사 훈련)
로봇은 "뚜껑 열기"라는 작업을 반복해서 연습합니다. 이때 **동역학 시스템 (Dynamical System)**이라는 수학적 도구를 써서, 어떤 상황에서도 안정적으로 목표에 도달하는 자석 같은 손기술을 배웁니다.


🌟 실제 실험 결과: 놀라운 성과

이 방법은 두 가지 환경에서 테스트되었습니다.

  1. 시뮬레이션 (RoboCasa):

    • 로봇은 12 가지의 간단한 작업 (문 열기, 서랍 닫기 등) 을 각각 5~10 번의 영상만 보고 배웠습니다.
    • 그 후, 추가 데이터 없이 이 작업들을 조합해 복잡한 12 단계의 임무 (예: 냉장고 문 열고 치즈 꺼내서 접시에 올리고 문 닫기) 를 성공적으로 수행했습니다. 성공률은 85% 였습니다.
    • 기존 방법들은 데이터가 부족하거나 계산이 느려서 실패했습니다.
  2. 실제 로봇 (Franka Panda):

    • 실험실 환경에서 5 분 동안의 장난감 놀이 영상만 보고 학습했습니다.
    • 로봇은 뚜껑을 열고, 물건을 옮기고, 다시 뚜껑을 닫는 복잡한 순서를 스스로 계획했습니다.
    • 실시간 복구: 실험 중 로봇이 실수하거나, 사람이 방해물을 넣어도 로봇은 즉시 계획을 수정하고 다시 성공했습니다.

💡 왜 이 기술이 중요한가요?

기존의 로봇은 "이 일을 하려면 이 버튼을 눌러라"라고 가르쳐야 했지만, SymSkill은 로봇에게 **"이런 상황에서는 이렇게 하면 돼"**라는 직관을 심어줍니다.

  • 데이터 효율성: 수천 번의 시도가 아니라, 5 분짜리 영상만으로도 배웁니다.
  • 실시간 대응: 일이 잘못되면 즉시 다시 계획을 세우고, 손기술이 흔들려도 스스로 바로잡습니다.
  • 유연성: 환경이 바뀌어도 (예: 문이 왼쪽이 아니라 오른쪽으로 열려도) 로봇은 논리적으로 대처할 수 있습니다.

한 줄 요약:

SymSkill 은 로봇에게 **"머리 (논리)"**와 **"손 (기술)"**을 동시에 가르쳐, 복잡한 세상에서도 유연하고 똑똑하게 일할 수 있게 해주는 새로운 학습 방법입니다. 마치 아이가 장난감을 가지고 놀면서 "어떻게 하면 이걸 저걸로 바꿀 수 있을까?"를 스스로 깨우치는 것과 같습니다.