ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

이 논문은 시각적 계획과 심볼릭 예측을 결합한 방법 (VLM-as-grounder) 과 직접적인 VLM 계획 방법 (VLM-as-planner) 을 비교 평가하기 위한 최초의 오픈소스 벤치마크인 'ViPlan'을 제안하고, 블록월드와 가정용 로봇 환경에서의 실험을 통해 각 접근법의 장단점과 현재 VLM 의 시각적 추론 한계를 규명했습니다.

Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 는 왜 계획을 세우기 어려울까요?

우리가 AI 에게 "책장을 정리해 줘"라고 말하면, AI 는 그 명령을 듣고 어떻게 해야 할지 생각해야 합니다.

  • 문제점: AI 는 언어는 잘하지만, 눈으로 본 실제 사물의 위치나 상태를 정확히 파악하는 데는 약점이 있습니다.
  • 해결책 제안: 연구자들은 두 가지 방법을 시도했습니다.
    1. 직관형 요리사 (VLM-as-planner): AI 가 눈으로 보고 "이제 이걸 집어서 저기 놓자"라고 바로 계획을 세웁니다. (AI 가 모든 것을 다 결정)
    2. 도구형 요리사 (VLM-as-grounder): AI 는 눈으로 보고 "책이 책장 위에 있는가?", "손이 비어있는가?" 같은 사실 확인 질문만 답합니다. 그 답을 받아서 **수학적인 계산기 (기호 계획기)**가 최종 계획을 세웁니다. (AI 는 눈만 감고, 계산기는 논리를 짠다)

2. 실험장: 두 가지 다른 세상

연구진은 이 두 방식을 비교하기 위해 두 가지 다른 환경을 만들었습니다.

  • 세상 1: 블록 쌓기 놀이 (Blocksworld)

    • 상황: 깔끔하게 정렬된 블록들을 쌓는 게임입니다. 모든 것이 눈에 잘 보이고 규칙이 명확합니다.
    • 결과: **도구형 요리사 (사실 확인 + 계산기)**가 압도적으로 이겼습니다. (46% 성공 vs 9% 성공)
    • 이유: 이 게임은 "정확한 사실 확인"이 핵심입니다. AI 가 "저 블록이 위에 있나?"를 정확히 말해주면, 계산기가 완벽한 계획을 세우기 때문입니다.
  • 세상 2: 가정집 로봇 (Household Robotics)

    • 상황: 실제 집처럼 어지럽고, 가구가 많고, 로봇이 이동해야 하는 복잡한 환경입니다.
    • 결과: **직관형 요리사 (AI 가 직접 계획)**가 훨씬 잘했습니다. (34% 성공 vs 5% 성공)
    • 이유: 집은 너무 복잡해서 "모든 사물의 상태를 하나하나 확인"하는 방식은 시간이 너무 걸리고 실수가 쌓입니다. 대신 AI 가 "아, 이 책상은 보통 여기 있겠지"라는 **상식 (언어적 지식)**을 활용해서 대략적인 계획을 세우는 게 더 효과적이었습니다.

3. 핵심 발견: "생각하기 (Chain-of-Thought)"는 항상 도움이 될까?

최근 AI 는 "생각하는 과정 (Chain-of-Thought)"을 거치면 더 똑똑해진다고 알려져 있습니다. 하지만 이 연구에서는 그렇지 않다는 놀라운 결과가 나왔습니다.

  • 비유: AI 에게 "생각하는 시간을 더 줘"라고 했더니, 오히려 생각하다가 지쳐서 (토큰 한도 초과) 아무것도 못 한 경우가 많았습니다.
  • 결론: 시각적 추론 (눈으로 보고 판단) 에는 복잡한 생각 과정이 오히려 방해가 되거나, 별 도움이 되지 않는다는 것입니다.

4. 실패 원인 분석: 왜 실패할까?

  • 직관형 (AI 가 직접 계획): AI 가 "이건 가능해!"라고 착각하고 불가능한 행동을 하거나, 계획 형식을 잘못 써서 실패했습니다. (가상 세계를 잘못 상상함)
  • 도구형 (사실 확인 + 계산기): AI 가 "책이 책장 위에 있나?"라고 물었을 때, **실제로는 없는데 있다고 거짓말 (할루시네이션)**하거나, 반대로 있는데 없다고 하는 실수를 했습니다. 이 작은 오류가 쌓여서 전체 계획이 무너졌습니다.

5. 요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"하나의 만능 해결책은 없다"**고 말합니다.

  • 규칙이 명확하고 정확한 게 중요한 곳 (블록 쌓기): AI 가 눈으로 확인하고, 논리적인 계산기가 계획을 세우는 도구형이 좋습니다.
  • 복잡하고 상식이 필요한 곳 (가정집 정리): AI 가 언어적 상식을 활용해서 대략적인 방향을 잡는 직관형이 더 나을 수 있습니다.

결국, AI 가 인간처럼 눈으로 보고 현실 세계에서 계획을 세우려면, 상황에 따라 두 방식을 섞어서 쓰거나, AI 의 시각적 판단 능력을 더 발전시켜야 한다는 교훈을 줍니다.

한 줄 요약:

"AI 에게 계획을 세우게 할 때, **정확한 눈 (사실 확인)**이 필요한 곳과 **상식 (언어 지식)**이 필요한 곳은 다르며, 무조건 '생각하게' 하는 것은 항상 정답이 아니다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →