SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 인간의 지시를 듣고 물건을 치우거나 요리할 때, 왜 자꾸 실수를 하고 엉뚱한 행동을 하는가?"**라는 질문에 답하고, 그 해결책을 제시합니다.

제목인 SVLL은 "단계별 시 - 언어 학습"이라는 뜻인데, 쉽게 말해 "로봇에게 걷는 법을 먼저 가르치고, 그다음에 걷는 동안의 경험을 가르치는" 새로운 교육 방식입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

🤖 문제: 로봇은 왜 '망상'을 할까?

기존의 로봇이나 AI 는 인간의 말 ("사과를 전자레인지에 데워줘") 을 들으면, 책상 위에 사과가 있는지, 전자레인지 문이 열려 있는지 눈으로 확인하기보다 "이전 대화 내용"이나 "텍스트 패턴"에 너무 의존합니다.

비유: "눈을 감고 걷는 학생"

imagine 한 학생이 시험을 보는데, 문제를 보고 답을 쓰지 않고 이전 시험지 답안지를 보고 답을 적는다고 상상해 보세요.

상황: 전자레인지 문이 이미 열려 있는데, AI 는 "문 닫기"를 하라고 하거나, 문이 닫혀 있는데 "열기"를 무시하고 사과를 넣으려 합니다.

원인: AI 가 **현재 눈앞의 상황 (시각)**보다 **이전 행동 기록 (텍스트)**에 너무 익숙해져서, "아, 사과를 데우는 거니까 전자레인지 문 열기"라는 패턴만 외웠을 뿐, 실제로 문이 열려 있는지 확인하지 않기 때문입니다. 이를 논문에서는 **' premature temporal binding(조기 시간적 고정)'**이라고 부릅니다.

또한, 기존 AI 는 "정답과 오답을 비교해서" 배우는데, 이 방식은 로봇에게 치명적입니다.

비유: "너는 사과를 넣으려다 문이 닫혀서 실패했어 (오답). 나는 문을 열고 성공했어 (정답)"라고 비교만 하면, AI 는 "문 닫기"를 싫어하는 법은 배우지만, "문 열기"를 반드시 해야 한다는 절대적인 규칙을 배우지 못합니다. 결과적으로 "문은 닫혀 있는데 사과를 넣으려고 시도"하는 **물리적으로 불가능한 망상 (Hallucination)**을 하게 됩니다.

💡 해결책: SVLL (3 단계 교육 프로그램)

저자들은 이 문제를 해결하기 위해 로봇을 3 단계로 나누어 훈련시켰습니다. 마치 유치원 → 초등학교 → 고등학교 순서로 가르치는 것과 같습니다.

1 단계: "눈을 뜨고 현재만 보라" (공간적 이해)

방법: 로봇에게 과거의 행동 기록 (텍스트) 을 완전히 차단하고, 오직 현재 눈앞의 사진만 보여줍니다.
비유: "이 사진에서 사과가 어디 있는지 찾아봐. 그리고 사과를 잡으려면 어떻게 해야 할지 말해봐."라고 묻되, "어제 뭐 했는지"는 말하지 않습니다.
효과: 로봇이 "이전 기록"에 의존하지 않고, **지금 눈앞의 사물 (시각)**을 정확히 파악하는 능력을 기릅니다. "아, 문이 닫혀 있구나"를 눈으로 확인하는 훈련입니다.

2 단계: "이제 과거도 기억해라" (시간적 추론)

방법: 1 단계에서 눈으로 보는 법을 잘 익힌 로봇에게, 이제 과거 행동 기록을 다시 보여줍니다.
비유: "이제 사과를 잡았으니, 다음으로 전자레인지로 가자. (과거 기록: 사과 잡음)"
효과: 로봇은 이미 '눈으로 보는 법'을 익혔기 때문에, 과거 기록을 보조 도구로만 쓰고, 여전히 현재 상황을 무시하지 않습니다.

3 단계: "안전 규칙을 철저히 지키라" (Bias-DPO)

방법: 기존 AI 가 "정답 vs 오답"을 비교할 때, 정답의 확률을 높이고 오답의 확률을 낮추는 새로운 학습 방식을 도입했습니다. 특히 "물리적으로 불가능한 행동"을 하면 강력하게 처벌합니다.
비유: "문 닫은 채로 사과 넣기"를 시도하면, AI 는 "아, 이건 절대 하면 안 되는 행동이야!"라고 절대적인 규칙을 배우게 됩니다. 단순히 "다른 사람보다 잘했다"가 아니라, **"물리 법칙을 어기면 안 된다"**는 것을 체득하게 됩니다.
효과: AI 가 "내가 잘할 수 있을 거야"라고 자신 있게 망상 (Hallucination) 을 하는 것을 막아줍니다.

🏆 결과: 실제 로봇에서도 대박!

이 방법 (SVLL) 으로 훈련된 70 억 개의 파라미터를 가진 AI 는, 320 억 개의 파라미터를 가진 최신 AI 보다 훨씬 잘합니다.

성공률: AI2-THOR(가상 시뮬레이션) 에서 78% 이상의 성공률을 기록했습니다. (기존 최고 모델들은 50% 대)
실제 로봇: 실제 로봇 팔에 적용했을 때, "문을 열지 않고 사과를 넣으려 한다"거나 "이미 잡은 물건을 다시 잡으려 한다" 같은 치명적인 실수가 4% 미만으로 줄었습니다.

📝 한 줄 요약

"로봇에게 과거의 말 (텍스트) 에만 의존하지 말고, 지금 눈앞의 상황 (시각) 을 먼저 보고, 물리 법칙을 절대적으로 지키는 법을 단계별로 가르쳐야 한다."

이 논문은 AI 가 단순히 "말을 잘하는 것"을 넘어, 실제 세상에서 안전하게 일할 수 있는 로봇이 되기 위한 핵심 열쇠를 찾았습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
Embodied Task Planning(구체화된 작업 계획) 은 로봇이나 에이전트가 고수준의 자연어 지시를 받아 물리적 환경에서 실행 가능한 일련의 행동 시퀀스를 생성해야 하는 과제입니다. 최근 대규모 비전 - 언어 모델 (VLM) 이 이 분야에서 유망한 성과를 보이고 있지만, 실제 물리적 환경에 적용할 때는 심각한 한계가 존재합니다.

주요 문제점:
기존의 학습 패러다임은 두 가지 근본적인 결함을 가지고 있습니다.

조기 시간적 결합 (Premature Temporal Binding): 종단 간 (End-to-End) 학습 시, 모델이 시각적 입력 (현재 상태) 보다는 텍스트 기반의 과거 행동 히스토리 (Action History) 에 과도하게 의존하게 됩니다. 이로 인해 환경 상태가 변했음에도 불구하고 과거의 패턴을 반복하거나, 현재 시각적 단서를 무시한 채 잘못된 행동을 수행하는 '할루시네이션'이 발생합니다.
인과적 불일치 (Causal Misalignment) 및 가능성 이동 (Likelihood Displacement): 기존의 직접 선호 최적화 (DPO) 와 같은 선호 학습 방법은 '승자 (성공) 와 패자 (실패)' 간의 상대적 차이를 최적화하는 데 중점을 둡니다. 그러나 구체화된 작업은 절대적인 물리 법칙을 따릅니다. 상대적 최적화만으로는 최적 경로의 절대적 확률이 감소하여 (Likelihood Displacement), 모델은 물리적으로 불가능하지만 텍스트적으로 유력한 '안전하지 않은 행동'을 생성할 수 있습니다.

2. 제안 방법론: SVLL (Methodology)

저자들은 이러한 문제를 해결하기 위해 SVLL (Staged Vision-Language Learning) 이라는 3 단계 통합 학습 프레임워크를 제안합니다.

1 단계: 공간적 기반 학습 (Spatial Grounding)

목적: 모델이 텍스트 히스토리에 의존하지 않고 현재 시각적 관찰 (Visual Observation) 만으로 행동을 결정하도록 강제합니다.
방식: 행동 히스토리 ( $h_t$ ) 를 차단하고, 현재 프레임 ( $I_t$ ) 과 지시문 ( $T$ ) 만을 입력으로 받아 최적의 행동을 예측하도록 학습합니다.
효과: 모델이 시각적 affordance(행동 가능성) 를 강하게 학습하여 '조기 시간적 결합'을 방지하고, 물리적 환경에 대한 견고한 기반을 마련합니다.

2 단계: 시간적 추론 학습 (Temporal Reasoning)

목적: 1 단계에서 학습된 견고한 시각적 기반 위에 시간적 인과 관계를 추가합니다.
방식: 1 단계에서 학습된 가중치를 초기값으로 사용하고, 이제 행동 히스토리 ( $h_t$ ) 를 입력으로 포함시켜 순차적 학습을 수행합니다.
효과: 모델은 과거의 맥락을 참조하되, 이를 주된 결정 근거로 삼지 않고 시각적 관찰을 보조하는 '시간적 단서'로 활용하는 능력을 배양합니다.

3 단계: Bias-DPO 를 통한 정렬 (Alignment via B-DPO)

목적: 표준 DPO 의 'Likelihood Displacement' 문제를 해결하고, 물리적 제약 조건을 엄격히 준수하도록 모델을 정렬합니다.
방식 (Bias-DPO, B-DPO):
1. 전문가 경로 강화: 선택된 전문가 행동 (Expert Trajectory) 에 가중치 ( $w > 1$ ) 를 부여하여 확률 질량을 증폭합니다.
2. 지도 학습 손실 (SFT Loss) 추가: 최적 경로의 절대적 확률을 유지하도록 보조 손실 함수를 도입하여, 상대적 최적화만으로는 발생할 수 있는 확률 이동을 방지합니다.
3. 불확실성 억제 (Unlikelihood Penalty): 물리적으로 불가능하거나 위험한 행동 (예: 문이 닫힌 냉장고에 물건을 넣으려는 시도) 에 대해 임계값 ( $\tau$ ) 을 초과할 경우 페널티를 부과하여 '과신된 할루시네이션'을 억제합니다.
결과: 모델은 전문가 분포 (Expert Manifold) 에 단단히 고정 (Anchoring) 되어 물리적으로 불가능한 단축 경로 (Shortcuts) 를 따르지 않게 됩니다.

3. 주요 기여 (Key Contributions)

단계적 해리 전략 (Staged Decoupling Strategy): 공간적 기반 (시각) 과 시간적 추론 (히스토리) 을 분리하여 학습함으로써, 모델이 시각적 인식을 우회하는 텍스트적 단축 경로를 학습하는 것을 방지합니다.
Bias-DPO 기반 정렬 메커니즘: 상대적 순위 매기기를 넘어, 전문가 행동에 대한 인덕티브 바이어스 (Inductive Bias) 를 명시적으로 주입하고 물리적 제약 위반을 억제하는 새로운 정렬 목적 함수를 제안했습니다.
최고 수준의 성능과 안전성: AI2-THOR 벤치마크와 실제 로봇 배포에서 SOTA 오픈소스/클로즈드소스 모델보다 높은 성공률을 기록하면서, 물리적 제약 위반을 획기적으로 줄였습니다.

4. 실험 결과 (Results)

AI2-THOR 시뮬레이션 환경

성공률 (SR): 제안된 SVLL-Stage 3 모델 (7B 파라미터) 은 **78.35%**의 성공률을 기록하여, GPT-4o (48.45%), Gemini-2.0-flash (58.76%) 등 클로즈드소스 모델과 Qwen2.5-VL-7B (18.56%) 등 오픈소스 모델을 압도했습니다.
물리적 제약 위반 (CVR): SVLL-Stage 3 은 **26.34%**의 위반율을 보여, 기존 모델들 (30~50% 이상) 보다 훨씬 안전한 행동을 생성했습니다.
유효 행동률 (VAR): 89.64% 로, 현재 환경에서 실행 가능한 행동을 생성하는 능력이 탁월함을 입증했습니다.

실제 로봇 배포 (Real-World Deployment)

Zero-shot 전이: 7B 파라미터 모델이 32B 파라미터 모델 (RoboBrain2.0) 보다 적은 파라미터임에도 불구하고, 실제 로봇 환경에서 **55.56%**의 성공률을 기록했습니다 (RoboBrain2.0 은 22.22%).
안전성: 실제 물리적 환경에서의 제약 위반률 (CVR) 을 **4.35%**까지 낮추어, 실제 적용 시 안전성을 크게 향상시켰습니다.
사례: 문을 열지 않고 물건을 넣으려는 등 물리적으로 불가능한 행동을 기존 모델이 수행하는 반면, SVLL 모델은 필수적인 선행 행동 (Open) 을 수행한 후 작업을 완료했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 구체화된 에이전트 (Embodied Agent) 의 학습에서 상대적 선호 최적화 (Relative Preference Optimization) 의 한계를 지적하고, 절대적인 물리 법칙을 고려한 학습 프레임워크의 필요성을 강조합니다.

핵심 통찰: 단순히 텍스트 생성과 같은 상대적 순위 매기기로는 물리적 세계의 엄격한 인과관계를 학습할 수 없으며, 이를 위해서는 시각적 기반 학습과 시간적 추론을 분리하고, 전문가 분포에 모델을 고정시키는 구조적 바이어스가 필수적입니다.
영향: SVLL 프레임워크는 대규모 모델의 파라미터 수를 늘리는 것만으로는 해결되지 않는 '물리적 grounding' 문제를 구조적인 학습 전략을 통해 해결함으로써, 안전하고 신뢰할 수 있는 실제 로봇 제어 기술의 발전에 중요한 기여를 했습니다.