ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

이 논문은 차분 가능한 비터비 계층을 통해 절차적 지식 그래프를 명시적으로 통합함으로써, 기존 대규모 모델보다 훨씬 적은 파라미터로 더 높은 샘플 효율성과 강건성을 달성하는 새로운 계획 프레임워크인 ViterbiPlanNet 을 제안합니다.

Luigi Seminara, Davide Moltisanti, Antonino Furnari

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ViterbiPlanNet"**이라는 새로운 인공지능 시스템을 소개합니다. 이 시스템은 요리 레시피나 DIY 설명서 같은 ' instructional video( instructional video)'를 보고, "어떻게 하면 처음 상태에서 목표 상태에 도달할 수 있을까?"라는 질문에 답하는 계획 수립 (Planning) 능력을 배웁니다.

기존의 인공지능들은 방대한 데이터를 먹고 '암기'하듯 복잡한 규칙을 스스로 찾아내려 했지만, 이 방식은 비효율적이고 계산 비용이 너무 많이 들었습니다. 이 논문은 **"인공지능에게 암기 대신 '논리'와 '지도'를 가르쳐주자"**는 새로운 접근법을 제시합니다.

이해를 돕기 위해 몇 가지 비유를 들어 설명해 드리겠습니다.


1. 문제: "암기하는 학생" vs "이해하는 학생"

  • 기존 방식 (암기하는 학생):
    기존의 AI 모델들은 거대한 도서관 (데이터) 에 있는 모든 요리 레시피를 통째로 외우려고 노력합니다. "계란을 깨고, 휘저고, 우유를 넣는 순서"를 수천 번 반복해서 외우죠. 하지만 시험장에 가서 조금만 다른 상황 (예: 계란이 아닌 달걀을 깨는 상황) 이 나오면, 외운 대로만 하다가 당황해서 엉뚱한 행동을 하거나 실패합니다. 또한, 이 모든 것을 외우려면 머리가 너무 커야 (파라미터가 많아야) 합니다.

  • 새로운 방식 (ViterbiPlanNet - 이해하는 학생):
    이 시스템은 모든 레시피를 외우지 않습니다. 대신, **"요리할 때 지켜야 할 기본 법칙 (지도)"**을 가지고 있습니다.

    • 예시: "빵을 먼저 깔아야 그 위에 고기를 올릴 수 있다", "소스를 뿌리기 전에 재료를 섞어야 한다" 같은 **프로시저 지식 (Procedural Knowledge)**입니다.
    • 이 시스템은 이 '지도'를 바탕으로, 눈앞에 보이는 재료 (시작과 목표 이미지) 를 보고 "아, 지금 빵을 깔아야겠구나"라고 논리적으로 추론합니다.

2. 핵심 기술: "미끄러운 미로 찾기" (Differentiable Viterbi)

이 시스템의 가장 큰 특징은 **'미끄러운 미로 찾기 (Differentiable Viterbi Layer)'**라는 기술을 사용한다는 점입니다.

  • 전통적인 미로 찾기 (비차분 가능):
    예전에는 AI 가 미로 (계획) 를 찾을 때, "이 길은 막혔으니 저기로 가자"라고 딱딱하게 결정했습니다. 문제는 이 결정 과정을 AI 가 스스로 수정할 수 없게 만들었다는 점입니다. 마치 "이 길은 정답이다"라고 딱 고정해버린 것과 같아서, AI 가 실수를 했을 때 "아, 내가 잘못 골랐구나"라고 배울 수 없었습니다.

  • ViterbiPlanNet 의 미끄러운 미로 찾기:
    이 시스템은 미로를 찾을 때 부드러운 점토처럼 다룹니다. "이 길이 가장 유력하지만, 저 길도 아주 조금 가능성은 있어"라고 확률적으로 접근합니다.

    • 이렇게 하면 AI 가 실수를 했을 때, "아, 내가 이 부분을 부드럽게 조정해야겠구나"라고 **학습 (Gradient)**을 통해 스스로 수정할 수 있습니다.
    • 결과적으로 AI 는 복잡한 규칙을 외울 필요 없이, **지도 (PKG)**와 **눈 (시각 정보)**을 연결하는 '연결 고리'만 잘 만들면 됩니다.

3. 왜 이것이 획기적인가? (효율성과 정확성)

이 논문의 실험 결과는 매우 놀랍습니다.

  • 압도적인 효율성:
    다른 최신 AI 들 (거대 언어 모델이나 확산 모델) 은 수천 억 개의 '뇌세포 (파라미터)'를 가지고 있습니다. 반면, ViterbiPlanNet 은 그보다 1,000 배에서 10,000 배 적은 뇌세포로 작동합니다.

    • 비유: 거대한 슈퍼컴퓨터로 간단한 사칙연산을 하는 대신, 작은 계산기로 똑똑하게 문제를 푸는 것과 같습니다.
  • 데이터 효율성:
    적은 데이터로도 훨씬 잘 학습합니다. 다른 모델들이 100% 의 데이터를 다 봐야 하는 반면, 이 시스템은 25% 만 봐도 비슷한 성능을 냅니다. "지도"를 보고 있기 때문에, 모든 길을 다 경험할 필요가 없기 때문입니다.

  • 예측 불가능한 상황에도 강함:
    훈련할 때는 6 단계짜리 요리를 배웠는데, 테스트할 때는 3 단계짜리 요리만 요구해도 잘 해냅니다. 이는 AI 가 단순히 순서를 '암기'한 것이 아니라, 요리의 논리 구조를 진짜로 이해했기 때문입니다.

4. 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"인공지능이 무작정 많이 배우는 것 (Big Data) 보다, 올바른 규칙 (Structure) 을 알고 배우는 것이 더 중요하다"**는 것을 증명했습니다.

  • 기존: "모든 레시피를 외워라!" (비효율적, 비싸고, 틀리기 쉬움)
  • ViterbiPlanNet: "요리의 기본 법칙 (지도) 을 보고, 눈으로 확인해서 논리적으로 계획을 세워라!" (효율적, 저렴하고, 똑똑함)

이 기술이 발전하면, 우리 집의 작은 로봇이 복잡한 요리나 수리 작업을 할 때, 거대한 서버가 아니라 작은 칩 하나만으로도 아주 똑똑하게 계획을 세우고 우리를 도와줄 수 있게 될 것입니다.