LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "눈으로만 보면 헷갈려요!" (시각적 모호성)

기존의 AI 는 영상을 볼 때 오직 '눈' (시각 정보) 만 믿고 행동을 예측했습니다. 하지만 여기엔 치명적인 문제가 있었습니다.

비유: imagine(상상해 보세요).
- 상황 A: 커피를 갈아서 필터에 넣는 장면.
- 상황 B: 커피 가루 표면을 평평하게 다지는 장면.
- 문제: 두 장면을 눈으로만 보면 배경, 손, 커피 그릇 등 모든 것이 거의 똑같아 보입니다. AI 는 "어? 이거 커피 넣는 건가, 아니면 평평하게 만드는 건가?" 하고 매우 헷갈려합니다.

이처럼 시각적으로는 비슷해 보이지만 실제로는 완전히 다른 행동들이 많기 때문에, 눈만 믿는 AI 는 계획을 잘 세우지 못했습니다.

2. 해결책: "말 (언어) 로 생각하면 명확해져요!"

저자들은 **"눈보다 '말' 이 더 명확하다"**는 아이디어를 제안했습니다.

비유:
- 눈으로 보면 두 커피 장면이 똑같지만, 말로 설명하면 완전히 다릅니다.
- A: "커피 가루를 넣어라 (Add Coffee)"
- B: "커피 가루를 평평하게 다져라 (Even Surface)"
- 해결: AI 가 영상을 보고 "무엇이 보이는가?"를 묻는 대신, "이건 무슨 일이 일어나고 있는가?"를 문장으로 변환하면, AI 는 훨씬 명확하게 구분할 수 있습니다.

3. LAP 가 어떻게 작동하나요? (3 단계 과정)

이 모델은 크게 세 가지 단계를 거칩니다.

1 단계: "눈을 입으로 바꾸기" (Video-to-Text)

비유: AI 가 영상을 보고 "이건 무슨 일이야?"라고 스스로 말로 설명하는 단계입니다.
작동: 미리 훈련된 거대 언어 모델 (VLM) 을 이용해, 영상 속 장면을 **"커피를 넣는 중"**이나 "표면을 다지는 중" 같은 구체적인 문장으로 바꿉니다.
중요한 점: 단순히 "커피"라고만 하지 않고, **"커피를 넣는다"**와 **"커피를 다진다"**처럼 동사를 명확히 구분할 수 있도록 문장을 더 길고 자세하게 만들어줍니다. (이를 위해 '교수 강제 (Professor Forcing)'라는 기술을 써서 학습을 시켰습니다.)

2 단계: "의미 있는 단어 찾기" (Embedding)

비유: 만든 문장을 AI 가 이해할 수 있는 **숫자 코드 (벡터)**로 바꿉니다.
효과: 시각적인 숫자 코드는 서로 많이 겹쳐서 헷갈리지만, 문장 기반의 숫자 코드는 서로 명확하게 떨어집니다. 마치 "사과"와 "자동차"가 서로 다른 곳에 위치하는 것처럼요.

3 단계: "미리보기로 계획 세우기" (Diffusion Planning)

비유: 시작점 (시작 영상) 과 끝점 (목표 영상) 을 말로 변환한 후, 그 사이를 채워 넣는 퍼즐을 맞춥니다.
작동: '확산 모델 (Diffusion Model)'이라는 기술을 써서, 시작과 끝의 '말'을 바탕으로 중간에 어떤 행동들이 필요한지 순서대로 만들어냅니다.

4. 왜 이 방법이 더 좋은가요? (결과)

이 모델은 CrossTask, Coin, NIV라는 세 가지 유명한 데이터셋에서 실험을 했습니다.

결과: 기존에 가장 잘하던 AI 들보다 압도적으로 좋은 점수를 받았습니다.
이유: 시각 정보만으로는 구별하기 어려운 미묘한 차이도, 언어적 설명을 거치면 명확해지기 때문입니다. 특히 시각 정보가 비슷한 복잡한 작업일수록 언어를 활용한 LAP 의 성능이 더 뛰어났습니다.

5. 한 줄 요약

"눈으로만 보면 헷갈리는 요리 영상도, AI 가 '말'로 설명해 주면 중간 과정을 아주 정확하게 예측할 수 있다!"

이 연구는 AI 가 인간의 작업을 돕기 위해, 단순히 영상을 보는 것을 넘어 그 의미를 언어로 이해하고 계획하는 능력이 얼마나 중요한지를 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

** instructional video( instructional video)** 내의 절차 계획 (Procedure Planning) 작업은 주어진 시작 시각적 관찰 ( $o_s$ ) 과 목표 시각적 관찰 ( $o_g$ ) 을 바탕으로, 해당 작업을 완수하기 위한 중간 행동들의 시퀀스 ( $\pi = [a_1, ..., a_T]$ ) 를 예측하는 것입니다.

기존 방법론들은 주로 시각적 관찰 (비디오 프레임) 에만 의존하여 계획을 수립했으나, 다음과 같은 본질적인 한계가 존재합니다:

시각적 모호성 (Visual Ambiguity): 서로 다른 행동들이 시각적으로 매우 유사하게 나타날 수 있습니다. 예를 들어, "커피 추가 (Add Coffee)"와 "커피 표면 평평하게 하기 (Even Surface)"는 배경, 물체, 손의 위치 등이 매우 비슷하여 시각적 특징만으로는 구별하기 어렵습니다.
잠재 공간 (Latent Space) 의 혼재: 시각적 특징 벡터는 서로 다른 행동들이 서로 겹치거나 (cluttered) 명확히 분리되지 않는 경향이 있어, 모델이 행동을 구분하고 계획하는 데 어려움을 겪습니다.

2. 제안 방법론: LAP (Methodology)

저자들은 언어 설명이 잠재 공간에서 더 구체적이고 (distinctive) 표현력이 풍부하다고 주장하며, 이를 활용하여 언어 인식 계획 (Language-Aware Planning, LAP) 모델을 제안합니다. LAP 은 크게 두 단계로 구성됩니다.

2.1. 비전 - 언어 모델 (VLM) 파인튜닝 및 텍스트 변환

교수 강제 (Professor Forcing) 활용: 사전 학습된 비전 - 언어 모델 (VLM) 을 파인튜닝하여 시각적 관찰을 텍스트 설명으로 변환합니다.
상세한 설명 생성 (Language Enhancement): 단순한 행동 라벨 (예: "Add Coffee") 은 동사나 명사가 중복되어 모호할 수 있으므로, 사전 학습된 LLM 을 활용하여 WikiHow 등의 지침을 기반으로 상세한 언어 설명 (elaborated descriptions) 을 생성합니다. 이를 VLM 의 감독 신호 (supervision) 로 사용하여 시각적 관찰과 텍스트 간의 매핑을 정교화합니다.
Video-to-Text: 파인튜닝된 VLM 을 사용하여 시작 ( $o_s$ ) 과 목표 ( $o_g$ ) 시각 관찰을 텍스트로 변환하고, 이를 통해 예측된 행동의 텍스트 임베딩 ( $E_{\hat{a}_s}, E_{\hat{a}_g}$ ) 을 추출합니다.

2.2. 확산 모델을 통한 계획 (Planning with Diffusion Models)

확산 모델 (DDPM) 적용: 추출된 텍스트 임베딩을 조건으로 사용하여 중간 행동 시퀀스를 생성합니다.
입력 구조: 확산 모델의 입력은 시작/목표 행동의 텍스트 임베딩과 중간 행동 시퀀스로 구성됩니다.
- 핵심 특징: 확산 과정에서 텍스트 임베딩 차원은 노이즈가 추가되지 않고 고정됩니다. 오직 행동 (action) 차원에만 가우시안 노이즈가 추가되어 제거되는 과정을 통해 계획이 생성됩니다. 이는 언어적 맥락이 계획의 전체적인 방향을 유지하도록 돕습니다.

3. 주요 기여 (Key Contributions)

새로운 아키텍처 (LAP): 시각적 모호성을 해결하기 위해 언어 설명의 표현력과 잠재 공간에서의 구체성을 활용한 새로운 절차 계획 모델을 제안했습니다.
SOTA 성능 달성: CrossTask, Coin, NIV 라는 세 가지 벤치마크 데이터셋에서 다양한 평가 지표 (Success Rate, mAcc, mSIoU) 와 시간 범위 (Time Horizons) 에서 기존 최첨단 (SOTA) 방법론들을 큰 차이로 능가했습니다.
언어 임베딩의 유효성 입증: 실험을 통해 텍스트 임베딩이 시각적 관찰보다 잠재 공간에서 더 구체적 (distinctive) 이며, 절차 계획 성능 향상에 결정적인 역할을 함을 실증적으로 증명했습니다.

4. 실험 결과 (Results)

세 가지 데이터셋 (CrossTask, Coin, NIV) 에서 다양한 시간 범위 ( $T=3$ to $T=6$ ) 에 걸쳐 평가되었습니다.

성능: LAP 은 모든 데이터셋에서 성공률 (Success Rate, SR) 을 포함한 모든 주요 지표에서 가장 높은 성능을 기록했습니다.
- 예시 (CrossTask, $T=3$ ): 기존 SOTA 모델들의 SR 이 약 33% 수준이었으나, LAP 은 41.14% 를 기록했습니다.
- 예시 (Coin, $T=3$ ): PlanLLM(33.22%) 을 제치고 44.43% 의 SR 을 달성했습니다.
Ablation Study (성분 분석):
- 텍스트 vs 시각: 시각적 특징만 사용하는 모델 (LAP-vo) 보다 텍스트 임베딩을 사용하는 모델 (LAP) 의 성능이 Coin 과 NIV 데이터셋에서 압도적으로 우수했습니다. 이는 시각적 모호성이 큰 데이터셋일수록 언어 정보가 더 큰 이점을 제공함을 의미합니다.
- 교수 강제 (Professor Forcing): 교수 강제 기법을 사용한 모델이 일반 교사 강제 (Teacher Forcing) 기법보다 일관되게 높은 성능을 보였습니다.
- 언어 강화 (Language Enhancement): LLM 을 통해 생성된 상세한 설명을 사용한 경우, 단순 라벨만 사용한 경우보다 행동 예측 정확도가 크게 향상되었습니다.
시각화: 잠재 공간 (Latent Space) 시각화 결과, 텍스트 임베딩은 시각적 특징에 비해 훨씬 더 명확하게 군집화 (clustered) 되어 분리되는 것을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 시각적 정보의 한계를 언어적 표현으로 보완함으로써 절차 계획 (Procedure Planning) 의 성능을 획기적으로 개선할 수 있음을 보였습니다. 특히, 시각적으로 유사한 행동들 사이에서도 언어적 설명이 제공하는 고유한 특징 (distinctiveness) 을 활용함으로써 모델이 더 정확한 행동 시퀀스를 예측할 수 있게 되었습니다.

이는 향후 인간과 AI 가 협력하여 복잡한 실세계 작업을 수행하는 시스템 (예: 로봇 조립, 요리 보조 등) 을 구축하는 데 있어, 시각 - 언어 멀티모달 접근법의 중요성을 강조하는 중요한 연구로 평가됩니다.