Each language version is independently generated for its own context, not a direct translation.

SymSkill: 로봇이 '생각'과 '손기술'을 동시에 배운다는 이야기

이 논문은 로봇이 복잡한 일을 할 때, 단순히 "보이는 대로 따라 하는 것"을 넘어, 상황을 이해하고(상징), 유연하게 대처하는(기술) 능력을 스스로 터득하는 새로운 방법 'SymSkill'을 소개합니다.

기존의 로봇 학습 방식은 두 가지 큰 한계가 있었습니다.

완벽한 모방 (Imitation Learning): 로봇이 인간이 하는 동작을 그대로 따라 하기는 잘하지만, 상황이 조금만 바뀌면 당황합니다. 마치 "레시피를 외운 요리사"처럼, 재료가 조금만 달라지면 요리를 못 하는 것과 같습니다.
엄격한 계획 (TAMP): 로봇이 논리적으로 계획을 세우는 방식은 유연하지만, 계산이 너무 느려서 실시간으로 대처하기 어렵습니다. 마치 "매우 똑똑하지만 계산기를 두드리는 데 10 분 걸리는 수학 선생님"처럼, 일이 급할 때 따라주지 못합니다.

SymSkill은 이 두 가지의 장점을 합쳐, 로봇이 5 분짜리 장난감 놀이 영상만 보고도 복잡한 일을 해낼 수 있게 합니다.

🧩 핵심 개념: "레고 블록"과 "요리사"의 만남

이 시스템을 이해하기 위해 두 가지 비유를 들어보겠습니다.

1. 상징 (Symbol) = "레고 블록의 이름표"

로봇은 세상을 무작위로 보는 게 아니라, 사물 간의 관계를 이름표로 붙입니다.

기존 방식: "그릇 안에 사과가 있다"는 사실을 숫자나 좌표로만 기억합니다.
SymSkill 방식: "사과가 그릇 안에 있다"는 것을 **'사과-그릇-포함'**이라는 하나의 레고 블록으로 인식합니다.
비유: 로봇은 사물을 개별적인 물건이 아니라, 서로 연결되는 레고 블록처럼 생각합니다. "문 열기", "뚜껑 닫기" 같은 블록들을 조합하면 복잡한 일 (예: 냉장고에서 치즈 꺼내서 접시에 올리기) 을 만들 수 있습니다.

2. 기술 (Skill) = "요리사의 손기술"

로봇은 각 레고 블록을 실행할 때, 고정된 동작이 아니라 유연한 손기술을 사용합니다.

기존 방식: "손을 A 지점에서 B 지점으로 1 초 동안 움직여라"라고 정해두면, 중간에 장애물이 생기면 부딪힙니다.
SymSkill 방식: "사과를 그릇에 넣는 손기술"을 배웁니다. 이때 손기술은 자석처럼 작동합니다. 목표 지점을 향해 자연스럽게 끌려가며, 중간에 방해물이 있거나 손이 흔들려도 스스로 다시 목표 지점으로 돌아옵니다.
비유: 마치 물이 그릇으로 흐르듯, 로봇의 손은 목표물을 향해 자연스럽게 움직입니다. 만약 누군가 로봇의 팔을 살짝 밀어도, 로봇은 그 힘에 휩쓸리지 않고 다시 원래 목표 (그릇) 로 돌아갑니다.

🚀 SymSkill 이 어떻게 배우나요? (3 단계 과정)

로봇은 인간의 "장난감 놀이" 영상을 보고 학습합니다.

1 단계: 상황 파악 (무엇이 움직였을까?)
로봇은 영상을 보고 "아, 이 사람은 바나나를 접시에 올리려고 했구나"라고 추측합니다. 여기서 중요한 건 **VLM(시각 언어 모델)**이라는 AI 가 도움을 줍니다. 하지만 로봇은 실시간으로 AI 의 말을 기다리는 게 아니라, 학습 단계에서 한 번만 "어떤 물체가 기준이 되는가?"를 물어보고 그 다음부터는 스스로 판단합니다.

2 단계: 규칙 만들기 (레고 블록 조립)
로봇은 영상을 분석해 규칙을 만듭니다.

"뚜껑을 열려면 먼저 손이 뚜껑 위에 있어야 해." (조건)
"뚜껑을 열면, 뚜껑은 열리고 손은 열려 있어." (결과)
이렇게 조건과 결과를 레고 블록 (상징) 으로 저장합니다.

3 단계: 손기술 다듬기 (요리사 훈련)
로봇은 "뚜껑 열기"라는 작업을 반복해서 연습합니다. 이때 **동역학 시스템 (Dynamical System)**이라는 수학적 도구를 써서, 어떤 상황에서도 안정적으로 목표에 도달하는 자석 같은 손기술을 배웁니다.

🌟 실제 실험 결과: 놀라운 성과

이 방법은 두 가지 환경에서 테스트되었습니다.

시뮬레이션 (RoboCasa):
- 로봇은 12 가지의 간단한 작업 (문 열기, 서랍 닫기 등) 을 각각 5~10 번의 영상만 보고 배웠습니다.
- 그 후, 추가 데이터 없이 이 작업들을 조합해 복잡한 12 단계의 임무 (예: 냉장고 문 열고 치즈 꺼내서 접시에 올리고 문 닫기) 를 성공적으로 수행했습니다. 성공률은 85% 였습니다.
- 기존 방법들은 데이터가 부족하거나 계산이 느려서 실패했습니다.
실제 로봇 (Franka Panda):
- 실험실 환경에서 5 분 동안의 장난감 놀이 영상만 보고 학습했습니다.
- 로봇은 뚜껑을 열고, 물건을 옮기고, 다시 뚜껑을 닫는 복잡한 순서를 스스로 계획했습니다.
- 실시간 복구: 실험 중 로봇이 실수하거나, 사람이 방해물을 넣어도 로봇은 즉시 계획을 수정하고 다시 성공했습니다.

💡 왜 이 기술이 중요한가요?

기존의 로봇은 "이 일을 하려면 이 버튼을 눌러라"라고 가르쳐야 했지만, SymSkill은 로봇에게 **"이런 상황에서는 이렇게 하면 돼"**라는 직관을 심어줍니다.

데이터 효율성: 수천 번의 시도가 아니라, 5 분짜리 영상만으로도 배웁니다.
실시간 대응: 일이 잘못되면 즉시 다시 계획을 세우고, 손기술이 흔들려도 스스로 바로잡습니다.
유연성: 환경이 바뀌어도 (예: 문이 왼쪽이 아니라 오른쪽으로 열려도) 로봇은 논리적으로 대처할 수 있습니다.

한 줄 요약:

SymSkill 은 로봇에게 **"머리 (논리)"**와 **"손 (기술)"**을 동시에 가르쳐, 복잡한 세상에서도 유연하고 똑똑하게 일할 수 있게 해주는 새로운 학습 방법입니다. 마치 아이가 장난감을 가지고 놀면서 "어떻게 하면 이걸 저걸로 바꿀 수 있을까?"를 스스로 깨우치는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

동적이고 복잡한 환경에서 로봇이 장기간 (Long-Horizon) 에 걸친 다단계 조작 작업을 수행하는 것은 여전히 큰 도전 과제입니다. 기존 접근법들은 다음과 같은 한계를 가지고 있습니다.

모방 학습 (Imitation Learning, IL): 대규모 고품질 데이터가 있을 때 단일 정책 (Monolithic Policy) 으로 기술을 잘 재현하지만, 장면이 변경되었을 때 어떤 기술을 재사용해야 할지 결정하는 구성적 일반화 (Compositional Generalization) 능력이 부족합니다.
작업 및 운동 계획 (Task-and-Motion Planning, TAMP): 기호적 추상화를 통해 구성적 일반화를 제공하지만, 실제 접촉이 많은 환경에서 계획에 수십 초에서 수백 분이 소요되어 실시간 실패 복구가 불가능합니다. 또한, 기호와 기술을 수동으로 설계해야 하므로 노동 집약적입니다.
기존 기호 - 기술 공발명 (Symbol-Skill Co-Invention) 방법: 제한된 데이터로 의미 있는 기호 (Predicates) 를 학습하기 위해 제안 - 선택 (Propose-and-down-select) 최적화를 사용하지만, 객체와 시연 데이터가 늘어날수록 탐색 속도가 느려지고 의미 있는 기호를 찾지 못하는 경우가 많습니다.

핵심 문제: 제한된 데이터 (시연 5~10 회) 로부터 실시간으로 실행 가능한 기호적 계획과 운동 제어 정책을 동시에 학습하여, 동적 환경에서 장기간 작업을 성공적으로 수행하고 실시간으로 실패를 복구하는 방법론이 필요합니다.

2. 방법론 (Methodology: SymSkill)

SymSkill 은 레이블이 지정되지 않고 세그먼트로 나뉘지 않은 (Unsegmented) 로봇 시연 데이터로부터 기호 (Predicates, Operators) 와 기술 (Skills) 을 비지도 학습 (Unsupervised Learning) 하는 통합 프레임워크입니다.

A. 데이터 전처리 및 프레임 선택 (Segmentation & Reference Frame)

세그먼트 분할: 시연 데이터를 '접촉 전 (Premotion, 그리퍼만 움직임)'과 '접촉 후 (Motion, 그리퍼와 객체 움직임)' 구간으로 자동 분할합니다.
상대 좌표계 학습:
- Premotion: 움직이는 객체 (Motion Object, $o_{int}$ ) 를 기준으로 그리퍼 궤적을 표현합니다.
- Motion: 움직이는 객체 ( $o_{int}$ ) 와 참조 객체 (Reference Object, $o_{ref}$ ) 간의 관계를 학습합니다. 참조 객체는 VLM(Visual Language Model, 예: Gemini-2.5-Pro) 을 사용하여 시연 프레임에서 자동으로 식별합니다. (VLM 은 오프라인에서 참조 객체 식별에만 사용되며, 온라인 추론에는 사용되지 않아 효율적입니다.)

B. 기호 학습 (Symbol Learning)

Predicate (술어) 학습: 분할된 궤적의 끝점을 클러스터링하여 상대 자세 (Relative Pose) 기반의 기호를 생성합니다.
- 그리퍼 - 객체 상대 자세 ( $o_{int}\psi_{ee}$ )
- 객체 - 참조 객체 상대 자세 ( $o_{ref}\psi_{oint}$ )
- 가우시안 분포를 피팅하여 마할라노비스 거리 (Mahalanobis distance) 를 기반으로 참/거짓을 판단하는 분류기로 정의합니다.
Operator (연산자) 학습: 시연 데이터에서 술어의 전이 (Transition) 를 추적하여 연산자를 생성합니다. 각 연산자는 전제 조건 (Preconditions), 효과 (Effects), 유지 조건 (Maintain conditions) 을 가지며, 이는 기호적 계획의 기본 단위가 됩니다.

C. 기술 학습 (Skill Learning)

SE(3) LPV-DS (Linear Parameter Varying Dynamical Systems): 각 연산자에 대응하는 저수준 운동 정책을 학습합니다.
- 위치 제어와 방향 제어에 각각 LPV-DS 와 Quaternion-DS 를 적용하여 안정적이고 수렴하는 벡터 필드를 생성합니다.
- 이 정책은 폐루프 (Closed-loop) 제어를 통해 외부 교란에 강인하며, 실시간으로 목표에 도달할 수 있도록 보장합니다.

D. 온라인 실행 및 복구 (Online Execution & Recovery)

기호적 계획: A* 탐색 등을 통해 학습된 연산자들을 조합하여 목표 상태에 도달하는 시퀀스를 생성합니다.
실시간 복구 메커니즘:
1. 기호 수준 복구: 실패 시 현재 상태로부터 기호적 계획을 재수행 (Replanning) 합니다.
2. 운동 수준 복구 (DS 기반):
  - 장애물 회피: 학습된 DS 정책에 국소 변조 (Local Modulation) 를 적용하여 장애물을 피합니다.
  - 샘플링 재시도 (Resampling): 실패 시 (예: 그립 실패), 학습된 효과 분포에서 새로운 목표 자세를 샘플링하여 정책을 변형하고 재시도합니다.

3. 주요 기여 (Key Contributions)

단일 프레임워크: 레이블이 없고 세그먼트로 나뉘지 않은 짧은/긴 작업 시연 데이터로부터 기호 (Predicates, Operators) 와 목표 지향적 DS 기술을 동시에 학습하는 통합 프레임워크 제안.
데이터 효율성 및 실시간성: 시연 데이터 5~10 회만으로 학습 가능하며, 기호 수준에서만 재계획을 수행하여 실시간 (Real-time) 실패 복구를 가능하게 함.
개방형 구현: RoboCasa 시뮬레이션 및 실제 Franka 로봇에서의 오픈소스 구현체 제공.

4. 실험 결과 (Experimental Results)

A. 시뮬레이션 (RoboCasa)

단일 단계 작업: 12 가지 단일 작업에서 85% 의 성공률을 기록했습니다.
다단계 작업: 추가 데이터 없이 학습된 기술을 조합하여 12 단계의 복잡한 작업 (예: 치즈를 냉장고에서 꺼내 counter 에 두고 문 닫기) 을 성공적으로 수행했습니다.
비교: 기존 Diffusion Policy (DP) 는 데이터 부족으로 인해 0% 에 가까운 성공률을 보인 반면, SymSkill 의 SE(3) LPV-DS 는 교란 하에서도 안정적인 수렴을 보였습니다.

B. 실제 로봇 (Franka Panda)

학습 데이터: 약 5 분의 플레이 데이터 (Play Data) 로부터 11 개의 연산자를 학습했습니다.
성과: 사용자가 지정한 기호적 목표 (예: 바나나를 접시 위에 놓기) 를 달성했으며, 인간이 개입하여 장애물을 만들거나 문을 닫는 등 외부 교란이 발생하더라도 자동으로 복구하여 작업을 완료했습니다.
기호 학습: VLM 을 통해 참조 객체를 정확히 식별하여 의미 있는 기호 (예: "뚜껑을 열어야만 팬에서 물건을 집을 수 있다"는 논리적 전제 조건) 를 자동으로 학습했습니다.

5. 의의 및 결론 (Significance & Conclusion)

데이터 효율성: 기존 방법들이 수백 개의 시연 데이터를 요구하는 반면, SymSkill 은 소수의 데이터 (5~10 회) 로도 복잡한 장기간 작업을 학습할 수 있어 실용성이 매우 높습니다.
강인성: 운동 제어에 DS 기반의 폐루프 정책을 사용하여 물리적 교란에 강하며, 기호적 계획과 운동 제어의 결합을 통해 실시간 실패 복구가 가능합니다.
자율성: VLM 을 오프라인 참조 객체 식별에만 제한적으로 사용하여, 온라인 추론 속도를 저하시키지 않으면서도 의미 있는 기호를 자동으로 추출합니다.

이 연구는 로봇이 인간의 플레이 데이터를 통해 스스로 작업의 논리 (기호) 와 실행 방법 (기술) 을 배우고, 동적 환경에서 유연하게 대처할 수 있는 새로운 패러다임을 제시합니다.

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation