SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning

SVLL 는 시각적 그라운딩과 시간적 추론을 분리하는 3 단계 학습 프레임워크와 절대적 확률 제약을 도입한 Bias-DPO 를 결합하여, 물리적 제약 위반을 줄이고 AI2-THOR 및 실제 로봇 환경에서 최첨단 모델보다 우수한 embodied 작업 계획 성능을 달성합니다.

Yuyuan Yang, Junkun Hong, Hongrong Wang, Honghao Cai, Xunpeng Ren, Ge Wang, Mingcong Lei, Shenhao Yan, Jiahao Yang, Chengsi Yao, Xi Li, Yiming Zhao, Yatong Han, Jinke Ren

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 인간의 지시를 듣고 물건을 치우거나 요리할 때, 왜 자꾸 실수를 하고 엉뚱한 행동을 하는가?"**라는 질문에 답하고, 그 해결책을 제시합니다.

제목인 SVLL은 "단계별 시 - 언어 학습"이라는 뜻인데, 쉽게 말해 "로봇에게 걷는 법을 먼저 가르치고, 그다음에 걷는 동안의 경험을 가르치는" 새로운 교육 방식입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


🤖 문제: 로봇은 왜 '망상'을 할까?

기존의 로봇이나 AI 는 인간의 말 ("사과를 전자레인지에 데워줘") 을 들으면, 책상 위에 사과가 있는지, 전자레인지 문이 열려 있는지 눈으로 확인하기보다 "이전 대화 내용"이나 "텍스트 패턴"에 너무 의존합니다.

비유: "눈을 감고 걷는 학생"

imagine 한 학생이 시험을 보는데, 문제를 보고 답을 쓰지 않고 이전 시험지 답안지를 보고 답을 적는다고 상상해 보세요.

  • 상황: 전자레인지 문이 이미 열려 있는데, AI 는 "문 닫기"를 하라고 하거나, 문이 닫혀 있는데 "열기"를 무시하고 사과를 넣으려 합니다.
  • 원인: AI 가 **현재 눈앞의 상황 (시각)**보다 **이전 행동 기록 (텍스트)**에 너무 익숙해져서, "아, 사과를 데우는 거니까 전자레인지 문 열기"라는 패턴만 외웠을 뿐, 실제로 문이 열려 있는지 확인하지 않기 때문입니다. 이를 논문에서는 **' premature temporal binding(조기 시간적 고정)'**이라고 부릅니다.

또한, 기존 AI 는 "정답과 오답을 비교해서" 배우는데, 이 방식은 로봇에게 치명적입니다.

  • 비유: "너는 사과를 넣으려다 문이 닫혀서 실패했어 (오답). 나는 문을 열고 성공했어 (정답)"라고 비교만 하면, AI 는 "문 닫기"를 싫어하는 법은 배우지만, "문 열기"를 반드시 해야 한다는 절대적인 규칙을 배우지 못합니다. 결과적으로 "문은 닫혀 있는데 사과를 넣으려고 시도"하는 **물리적으로 불가능한 망상 (Hallucination)**을 하게 됩니다.

💡 해결책: SVLL (3 단계 교육 프로그램)

저자들은 이 문제를 해결하기 위해 로봇을 3 단계로 나누어 훈련시켰습니다. 마치 유치원 → 초등학교 → 고등학교 순서로 가르치는 것과 같습니다.

1 단계: "눈을 뜨고 현재만 보라" (공간적 이해)

  • 방법: 로봇에게 과거의 행동 기록 (텍스트) 을 완전히 차단하고, 오직 현재 눈앞의 사진만 보여줍니다.
  • 비유: "이 사진에서 사과가 어디 있는지 찾아봐. 그리고 사과를 잡으려면 어떻게 해야 할지 말해봐."라고 묻되, "어제 뭐 했는지"는 말하지 않습니다.
  • 효과: 로봇이 "이전 기록"에 의존하지 않고, **지금 눈앞의 사물 (시각)**을 정확히 파악하는 능력을 기릅니다. "아, 문이 닫혀 있구나"를 눈으로 확인하는 훈련입니다.

2 단계: "이제 과거도 기억해라" (시간적 추론)

  • 방법: 1 단계에서 눈으로 보는 법을 잘 익힌 로봇에게, 이제 과거 행동 기록을 다시 보여줍니다.
  • 비유: "이제 사과를 잡았으니, 다음으로 전자레인지로 가자. (과거 기록: 사과 잡음)"
  • 효과: 로봇은 이미 '눈으로 보는 법'을 익혔기 때문에, 과거 기록을 보조 도구로만 쓰고, 여전히 현재 상황을 무시하지 않습니다.

3 단계: "안전 규칙을 철저히 지키라" (Bias-DPO)

  • 방법: 기존 AI 가 "정답 vs 오답"을 비교할 때, 정답의 확률을 높이고 오답의 확률을 낮추는 새로운 학습 방식을 도입했습니다. 특히 "물리적으로 불가능한 행동"을 하면 강력하게 처벌합니다.
  • 비유: "문 닫은 채로 사과 넣기"를 시도하면, AI 는 "아, 이건 절대 하면 안 되는 행동이야!"라고 절대적인 규칙을 배우게 됩니다. 단순히 "다른 사람보다 잘했다"가 아니라, **"물리 법칙을 어기면 안 된다"**는 것을 체득하게 됩니다.
  • 효과: AI 가 "내가 잘할 수 있을 거야"라고 자신 있게 망상 (Hallucination) 을 하는 것을 막아줍니다.

🏆 결과: 실제 로봇에서도 대박!

이 방법 (SVLL) 으로 훈련된 70 억 개의 파라미터를 가진 AI 는, 320 억 개의 파라미터를 가진 최신 AI 보다 훨씬 잘합니다.

  • 성공률: AI2-THOR(가상 시뮬레이션) 에서 78% 이상의 성공률을 기록했습니다. (기존 최고 모델들은 50% 대)
  • 실제 로봇: 실제 로봇 팔에 적용했을 때, "문을 열지 않고 사과를 넣으려 한다"거나 "이미 잡은 물건을 다시 잡으려 한다" 같은 치명적인 실수가 4% 미만으로 줄었습니다.

📝 한 줄 요약

"로봇에게 과거의 말 (텍스트) 에만 의존하지 말고, 지금 눈앞의 상황 (시각) 을 먼저 보고, 물리 법칙을 절대적으로 지키는 법을 단계별로 가르쳐야 한다."

이 논문은 AI 가 단순히 "말을 잘하는 것"을 넘어, 실제 세상에서 안전하게 일할 수 있는 로봇이 되기 위한 핵심 열쇠를 찾았습니다.