SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"쓰레기가 된 컴퓨터를 로봇이 어떻게 똑똑하게 분해할 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

기존의 로봇들은 복잡한 작업을 할 때 마치 "한 번에 모든 것을 외워서 수행하는 마법사"처럼 행동하려 했습니다. 하지만 컴퓨터 분해처럼 정교하고, 부품이 서로 맞물려 있어 실수하면 고장 날 수 있는 작업에서는 이 마법사들이 자주 넘어졌습니다.

저자들은 이 문제를 해결하기 위해 **'SELF-VLA'**라는 새로운 로봇 시스템을 개발했습니다. 이 시스템을 이해하기 위해 몇 가지 쉬운 비유를 들어보겠습니다.

1. 문제: "완벽한 마법사"의 한계

기존의 최신 로봇 기술 (VLA 모델) 은 거대한 두뇌를 가진 마법사처럼, "이 CPU 를 꺼내서 노란 상자에 넣어"라는 명령만 듣고 모든 동작을 스스로 계산합니다.

비유: 마치 초보 운전자가 복잡한 주차를 하려고 할 때, 차체 전체를 한 번에 회전시켜서 넣으려다 벽에 부딪히는 상황과 같습니다.
현실: 컴퓨터 분해는 CPU 소켓을 잠금 해제하고, 브래킷을 들어 올리고, CPU 를 조심스럽게 빼내는 등 정확한 순서와 미세한 힘 조절이 필요합니다. 기존 로봇은 이 정교한 '접촉' 작업을 하다가 부딪히거나, 부품을 떨어뜨리는 실수를 자주 했습니다.

2. 해결책: "전문가 팀"으로 구성하기

저자들은 로봇을 '혼자서 모든 것을 하는 마법사'가 아닌, 팀워크를 갖춘 전문가 그룹으로 바꿨습니다. 이것이 바로 SELF-VLA입니다.

이 팀은 세 명의 핵심 멤버로 구성되어 있습니다:

① VLA-Planner (전반부 지휘관)

역할: 로봇의 눈과 귀, 그리고 전략가입니다.
비유: 택시 기사처럼 생각해보세요. "그 CPU 소켓까지 가줘"라고 말하면, 차를 타고 목적지 (CPU) 근처까지 부드럽게 운전해 갑니다. 하지만 정교한 주차 (부품 분리) 는 직접 하지 않습니다.
작동: 로봇이 부품에 아주 가까이 갔을 때, "이제 내가 할 수 있는 한도까지 왔으니, 전문가를 불러줘!"라는 신호 (Stop Token) 를 보냅니다.

② Skill Library (전문 기술자 팀)

역할: 미리 훈련된 정교한 기술을 가진 전문가들입니다.
비유: 수리공이나 외과 의사처럼 생각해보세요. 이들은 "잠금 해제", "부품 들어 올리기", "부품 빼내기" 같은 구체적인 동작을 완벽하게 기억하고 있는 매뉴얼을 가지고 있습니다.
작동: 지휘관 (Planner) 의 신호를 받으면, 미리 정해진 정확한 경로대로 부품을 분리하고 상자에 넣습니다. 이 과정은 로봇이 실수할 여지가 거의 없습니다.

③ VLA-Corrector (구급대원)

역할: 실수가 났을 때 바로 복구하는 구조대입니다.
비유: 실수한 요리사를 도와주는 셰프입니다. 만약 부품이 떨어지거나 잡히지 않으면, 즉시 개입해서 다시 부품을 잡고, 전문가 (Skill Library) 가 다시 작업을 이어가게 합니다.
작동: "아, 떨어졌네?"라고 감지하자마자 로봇을 다시 움직여 부품을 잡고, 남은 작업을 완료합니다.

3. 왜 이 방식이 더 좋은가요?

이 논문의 실험 결과는 놀라웠습니다.

기존 방식 (한 명으로 해결): 컴퓨터 분해 작업에서 성공률이 거의 **0%**에 가까웠습니다. 부품을 잡으려다 부딪히거나, 순서를 잊어버려서 실패했습니다.
새로운 방식 (SELF-VLA): 성공률이 최대 80% 이상까지 급격히 올랐습니다.

핵심 차이점:
기존 로봇은 "모든 것을 스스로 계산해야 하는 부담"을 안고 있었지만, SELF-VLA 는 복잡한 부분은 미리 훈련된 전문가 (기술) 에게 맡기고, 로봇은 그 전문가가 필요한 곳으로 데려다주는 역할만 했습니다.

4. 결론: "모든 것을 아는 천재"보다 "각자 맡은 일을 잘하는 팀"이 이겼다

이 논문은 로봇 공학에 중요한 교훈을 남깁니다.

"로봇에게 모든 상황을 스스로 해결하도록 강요하기보다, **미리 준비된 정교한 기술 (Skill)**을 섞어주고, 실수가 났을 때 바로 고쳐주는 시스템을 만드는 것이 훨씬 효율적이다."

마치 프로 축구팀이 모든 선수가 골키퍼, 수비수, 공격수를 다 할 수 있게 하는 대신, 각 포지션의 전문가들이 팀워크로 경기를 치르는 것이 더 승리 확률이 높은 것과 같은 원리입니다.

이 기술이 발전하면, 앞으로 폐기되는 전자제품 (컴퓨터, 스마트폰 등) 을 로봇이 인간처럼 정교하게 분해하여 귀중한 자원을 다시 재활용하는 시대가 곧 올 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 전자 폐기물 (EoL) 이 급증하고 있으며, 귀중한 자원을 회수하기 위한 자동화된 해체 (Disassembly) 가 필수적입니다. 그러나 기존 해체 작업은 인간의 수작업에 의존하고 있어 비용이 높고 비효율적입니다.
기존 접근법의 한계:
- 기존 로봇 해체 시스템은 지각, 작업 계획, 운동 계획, 조작 등을 단계별로 나누어 처리하는 관례적인 파이프라인을 사용합니다. 이는 각 단계마다 별도의 데이터 준비와 모델 훈련이 필요하며, 제품 변이성 (Variability) 과 불확실성에 대처하기 어렵고 일반화 능력이 떨어집니다.
- 최근 등장한 VLA(Vision-Language-Action) 모델은 대규모 다중 모달 데이터를 기반으로 언어 지시와 시각 정보를 받아 로봇 행동을 직접 생성하는 엔드 - 투 - 엔드 (End-to-End) 방식의 강점을 보이지만, 복잡하고 접촉이 많은 (Contact-Rich), 장거리 (Long-horizon) 산업용 해체 작업에는 적합하지 않습니다.
- 특히 CPU 나 RAM 과 같은 정밀 부품 해체는 엄격한 순서와 정밀한 접촉 조작이 필요하며, 기존 VLA 모델은 훈련 데이터의 한계 (일상적인 단순 작업 위주) 로 인해 이러한 정밀한 조작에서 실패율이 매우 높습니다.

2. 제안 방법론: SELF-VLA (Methodology)

저자들은 SELF-VLA라는 새로운 에이전트 기반 VLA 프레임워크를 제안합니다. 이는 엔드 - 투 - 엔드 VLA 모델의 유연성과 명시적인 해체 기술 (Skill) 의 정밀함을 결합한 하이브리드 접근법입니다.

핵심 구성 요소:
1. VLA-Planner (계획기): 언어 지시와 시각 관측을 바탕으로 로봇을 목표 부품에 접근하게 하는 연속적인 제어 동작을 생성합니다. 로봇이 접촉 조작에 적합한 상태에 도달하면 **정지 토큰 (Stop Token)**을 출력하여 다음 단계로 전환합니다.
2. Skill Library (기술 라이브러리): 정지 토큰이 감지되면 호출됩니다. 사전에 정의된 웨이포인트 (Waypoint) 시퀀스를 기반으로 정밀한 접촉 조작 (예: 레버 잠금 해제, 부품 추출, 배치) 을 수행합니다. 이 과정에는 그리퍼 상태 모니터링 및 실패 감지가 내장되어 있습니다.
3. VLA-Corrector (수정기): 기술 실행 중 그리퍼가 부품을 잡지 못하거나 (실패 감지) 도중 부품이 떨어지는 경우 활성화됩니다. 로봇이 다시 부품을 잡고 원래 기술의 남은 단계 (배치 등) 를 재개하도록 제어합니다.
동작 원리:
- VLA-Planner 가 로봇을 목표 위치로 유도 $\rightarrow$ 정지 토큰 출력 $\rightarrow$ Skill Library 가 정밀 조작 수행 $\rightarrow$ 실패 시 VLA-Corrector 가 개입하여 복구 및 재시도.
- 이 구조는 엔드 - 투 - 엔드 모델이 정밀한 접촉 단계에서 겪는 오차를 방지하고, 장기 작업의 일관성을 보장합니다.

3. 주요 기여 (Key Contributions)

SELF-VLA 프레임워크 제안: 구조화된 해체 기술 (Skill) 과 실패 복구 메커니즘을 통합한 에이전트형 VLA 프레임워크를 최초로 제안하여, 장거리 접촉이 많은 조작 작업의 성공률을 획기적으로 높였습니다.
데이터셋 구축: EoL 데스크탑에서 CPU 추출 및 RAM 제거를 위한 실제 로봇 해체 데이터셋을 구축했습니다. 이 데이터는 '접근', '기술 실행', '수정', '기술 재개' 단계로 세분화되어 각 모듈 (Planner, Corrector, Baseline) 의 학습에 활용되었습니다.
성능 검증: 두 가지 복잡한 해체 작업 (CPU 추출, RAM 제거) 에 대해 기존 SOTA 엔드 - 투 - 엔드 VLA 모델 (OpenVLA, OpenVLA-OFT, $\pi_0.5$ , $\pi_0.5$ -Droid) 과 비교 실험을 수행했습니다.

4. 실험 결과 (Results)

성공률 향상:
- 제안된 SELF-VLA 프레임워크는 기존 엔드 - 투 - 엔드 모델 대비 RAM 제거 작업에서 평균 17%, CPU 추출 작업에서 31% 높은 성공률을 기록했습니다.
- 특히 $\pi_0.5$ -Droid 모델을 기반으로 한 SELF-VLA 는 CPU 추출 작업에서 엔드 - 투 - 엔드 대비 80% 향상된 성능을 보였습니다.
- 반면, 엔드 - 투 - 엔드 방식의 VLA 모델들은 사전 학습 (Pre-trained) 상태에서는 두 작업 모두에서 0% 성공률을 보였으며, 파인튜닝 후에도 성공률이 매우 낮았습니다.
모델별 분석:
- OpenVLA: 목표 부품에 충분히 근접하지 못해 접촉 단계에 도달하지 못해 실패했습니다.
- $\pi_0.5$ 계열: 더 정확한 동작을 생성하여 기술 호출이 가능해졌으며, 특히 대규모 실세계 조작 데이터로 사전 학습된 $\pi_0.5$ -Droid 가 가장 우수한 성능을 발휘했습니다.
데이터 샘플링 주파수: 30Hz 데이터보다 10Hz 로 다운샘플링된 데이터로 파인튜닝한 모델이 더 좋은 성능을 보였습니다. 이는 연속된 프레임 간의 상태 변화가 작아 30Hz 데이터가 단계별 지도 학습 (Stepwise Supervision) 에 덜 효과적일 수 있음을 시사합니다.
작업 시간: SELF-VLA 는 CPU 추출 작업을 평균 63 초에 완료한 반면, 엔드 - 투 - 엔드 방식은 136 초가 소요되어 효율성 면에서도 우위를 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

산업적 의의: 이 연구는 엔드 - 투 - 엔드 VLA 모델의 유연성과 전통적인 로봇 제어의 정밀함을 결합하여, 실제 산업 환경 (특히 전자 폐기물 해체) 에서 발생하는 불확실성과 정밀 조작 요구사항을 동시에 해결할 수 있음을 입증했습니다.
기술적 통찰: 복잡한 접촉 기반 작업에서는 단일 정책 (Single Policy) 으로 모든 것을 제어하기보다, 구조화된 기술 (Skill) 을 에이전트 프레임워크에 통합하는 것이 실패를 줄이고 성공률을 높이는 핵심 요소임을 보여줍니다.
향후 과제: 현재 프레임워크는 익숙한 구성 내에서는 안정적이지만, 부품의 방향이나 위치가 훈련 데이터와 완전히 다른 경우 (Out-of-Distribution) 에는 여전히 일반화 능력에 한계가 있음을 인정했습니다.

요약하자면, SELF-VLA는 로봇이 복잡한 해체 작업을 수행할 때, 고수준의 계획 (VLA Planner) 과 정밀한 실행 (Skill Library), 그리고 실패 시의 복구 (VLA Corrector) 를 유기적으로 연결함으로써 기존 AI 로봇의 한계를 극복하고 실제 적용 가능성을 높인 획기적인 프레임워크입니다.

SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly

1. 문제: "완벽한 마법사"의 한계

2. 해결책: "전문가 팀"으로 구성하기

① VLA-Planner (전반부 지휘관)

② Skill Library (전문 기술자 팀)

③ VLA-Corrector (구급대원)

3. 왜 이 방식이 더 좋은가요?

4. 결론: "모든 것을 아는 천재"보다 "각자 맡은 일을 잘하는 팀"이 이겼다

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론: SELF-VLA (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization