LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

이 논문은 시각적 관찰의 모호성을 극복하고 절차 계획의 정확도를 획기적으로 향상시키기 위해, 비전 - 언어 모델을 활용하여 시각 정보를 언어적 표현으로 변환한 후 이를 확산 모델에 적용하는 새로운 '언어 인식 계획 (LAP)' 모델을 제안하고 여러 벤치마크에서 최첨단 성능을 입증했습니다.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈으로만 보면 헷갈려요!" (시각적 모호성)

기존의 AI 는 영상을 볼 때 오직 '눈' (시각 정보) 만 믿고 행동을 예측했습니다. 하지만 여기엔 치명적인 문제가 있었습니다.

  • 비유: imagine(상상해 보세요).
    • 상황 A: 커피를 갈아서 필터에 넣는 장면.
    • 상황 B: 커피 가루 표면을 평평하게 다지는 장면.
    • 문제: 두 장면을 눈으로만 보면 배경, 손, 커피 그릇 등 모든 것이 거의 똑같아 보입니다. AI 는 "어? 이거 커피 넣는 건가, 아니면 평평하게 만드는 건가?" 하고 매우 헷갈려합니다.

이처럼 시각적으로는 비슷해 보이지만 실제로는 완전히 다른 행동들이 많기 때문에, 눈만 믿는 AI 는 계획을 잘 세우지 못했습니다.

2. 해결책: "말 (언어) 로 생각하면 명확해져요!"

저자들은 **"눈보다 '말' 이 더 명확하다"**는 아이디어를 제안했습니다.

  • 비유:
    • 눈으로 보면 두 커피 장면이 똑같지만, 말로 설명하면 완전히 다릅니다.
    • A: "커피 가루를 넣어라 (Add Coffee)"
    • B: "커피 가루를 평평하게 다져라 (Even Surface)"
    • 해결: AI 가 영상을 보고 "무엇이 보이는가?"를 묻는 대신, "이건 무슨 일이 일어나고 있는가?"를 문장으로 변환하면, AI 는 훨씬 명확하게 구분할 수 있습니다.

3. LAP 가 어떻게 작동하나요? (3 단계 과정)

이 모델은 크게 세 가지 단계를 거칩니다.

1 단계: "눈을 입으로 바꾸기" (Video-to-Text)

  • 비유: AI 가 영상을 보고 "이건 무슨 일이야?"라고 스스로 말로 설명하는 단계입니다.
  • 작동: 미리 훈련된 거대 언어 모델 (VLM) 을 이용해, 영상 속 장면을 **"커피를 넣는 중"**이나 "표면을 다지는 중" 같은 구체적인 문장으로 바꿉니다.
  • 중요한 점: 단순히 "커피"라고만 하지 않고, **"커피를 넣는다"**와 **"커피를 다진다"**처럼 동사를 명확히 구분할 수 있도록 문장을 더 길고 자세하게 만들어줍니다. (이를 위해 '교수 강제 (Professor Forcing)'라는 기술을 써서 학습을 시켰습니다.)

2 단계: "의미 있는 단어 찾기" (Embedding)

  • 비유: 만든 문장을 AI 가 이해할 수 있는 **숫자 코드 (벡터)**로 바꿉니다.
  • 효과: 시각적인 숫자 코드는 서로 많이 겹쳐서 헷갈리지만, 문장 기반의 숫자 코드는 서로 명확하게 떨어집니다. 마치 "사과"와 "자동차"가 서로 다른 곳에 위치하는 것처럼요.

3 단계: "미리보기로 계획 세우기" (Diffusion Planning)

  • 비유: 시작점 (시작 영상) 과 끝점 (목표 영상) 을 말로 변환한 후, 그 사이를 채워 넣는 퍼즐을 맞춥니다.
  • 작동: '확산 모델 (Diffusion Model)'이라는 기술을 써서, 시작과 끝의 '말'을 바탕으로 중간에 어떤 행동들이 필요한지 순서대로 만들어냅니다.

4. 왜 이 방법이 더 좋은가요? (결과)

이 모델은 CrossTask, Coin, NIV라는 세 가지 유명한 데이터셋에서 실험을 했습니다.

  • 결과: 기존에 가장 잘하던 AI 들보다 압도적으로 좋은 점수를 받았습니다.
  • 이유: 시각 정보만으로는 구별하기 어려운 미묘한 차이도, 언어적 설명을 거치면 명확해지기 때문입니다. 특히 시각 정보가 비슷한 복잡한 작업일수록 언어를 활용한 LAP 의 성능이 더 뛰어났습니다.

5. 한 줄 요약

"눈으로만 보면 헷갈리는 요리 영상도, AI 가 '말'로 설명해 주면 중간 과정을 아주 정확하게 예측할 수 있다!"

이 연구는 AI 가 인간의 작업을 돕기 위해, 단순히 영상을 보는 것을 넘어 그 의미를 언어로 이해하고 계획하는 능력이 얼마나 중요한지를 증명했습니다.