Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 아이디어: "새로운 영화를 처음 보지만, 모든 장면을 설명할 수 있는 AI"

1. 문제점: 기존 AI 는 "정해진 답지"만 외운 학생

기존의 비디오 분석 AI 들은 마치 정해진 답지가 있는 시험을 치는 학생과 같습니다.

예를 들어, "커피 만들기" 비디오를 분석할 때, AI 는 미리 정해진 '물 끓이기', '커피 내리기', '설탕 넣기'라는 3 가지만 배웠습니다.
만약 비디오에 "우유를 넣는" 장면이 나오거나, "아이스커피를 만드는" 새로운 방식이 등장하면, AI 는 당황해서 "이건 내가 배운 게 아니야!"라고 말하며 분석을 멈춥니다.
한계: 새로운 행동이나 낯선 상황 (Open-Vocabulary) 을 처리할 수 없습니다.

2. 해결책: OVTAS (열린 답지 AI)

이 논문은 **VLM(시각 - 언어 모델)**이라는 거대하고 똑똑한 AI 를 활용합니다. 이 AI 는 마치 수만 권의 책과 수천 개의 영상을 본 도서관 사서와 같습니다.

이 사서는 "커피 만들기"라는 제목의 책만 본 게 아니라, "차 만들기", "요리하기", "수술하기" 등 어떤 행동이든 언어로 설명할 수 있는 지식을 가지고 있습니다.
따라서 우리가 "이 비디오를 분석해줘"라고만 하면, AI 는 새로운 행동 이름도 즉시 이해하고 분석할 수 있습니다. (Zero-Shot: 학습 없이도 가능)

🛠️ 어떻게 작동할까? (두 단계 프로세스)

이 연구는 이 똑똑한 AI 를 두 단계로 나누어 비디오를 분석합니다.

1 단계: "눈으로 보고 이름 맞추기" (FAES)

비유: 영화의 한 장면을 멈추고, 그 장면을 보고 "이건 뭐지?"라고 묻는 것입니다.
AI 는 비디오의 각 프레임 (장면) 을 보고, 우리가 준 행동 목록 (예: '물 끓이기', '커피 부르기') 과 비교합니다.
"아, 이 장면은 '물 끓이기'랑 비슷하네!"라고 점수를 매깁니다.
문제점: AI 가 매 순간마다 "이건 물 끓이기", "아니, 이건 커피 부르기"라고 혼란스럽게 말해줍니다. (시간 순서가 뒤죽박죽임)

2 단계: "시간의 흐름을 정리하기" (SMTS)

비유: 1 단계에서 혼란스럽게 나온 답들을 논리적인 순서로 정리하는 것입니다.
"물 끓이기"가 먼저 일어나고, 그 다음에 "커피 부르기"가 와야 한다는 **상식 (시간적 일관성)**을 적용합니다.
마치 퍼즐 조각을 맞춰가듯, "이건 물 끓이기 구간, 저건 커피 부르기 구간"으로 자연스럽게 연결해 줍니다.
결과적으로 매우 매끄러운 행동 구분이 완성됩니다.

🔍 연구의 주요 발견 (무엇을 알아냈을까?)

연구팀은 다양한 크기와 종류의 AI 모델 14 가지를 시험해 보았습니다.

모델이 크다고 무조건 좋은 건 아님:
- 보통 AI 는 크기가 클수록 똑똑하다고 생각하지만, 이 실험에서는 중간 크기 모델이 가장 잘 작동했습니다.
- 비유: 거대한 도서관 사서 (초대형 모델) 는 지식이 너무 많아서 오히려 헷갈리는 반면, 적당히 지식을 갖춘 사서 (중간 모델) 가 이 특정 작업에는 더 빠르고 정확하게 반응했습니다.
짧은 비디오 vs 긴 비디오:
- 비디오가 너무 길면 분석이 어려워집니다.
- 비유: 1 분짜리 짧은 영상은 사서가 금방 정리하지만, 10 분짜리 긴 영상은 사서가 중간에 잊어버리거나 순서를 헷갈려합니다. 특히 매우 짧은 행동들 (예: 2 초 만에 끝나는 수술 동작) 이 연속으로 나오면 AI 가 따라가기 힘듭니다.
학습이 필요 없음 (Training-Free):
- 이 방식은 새로운 비디오를 볼 때마다 다시 학습할 필요가 없습니다.
- 기존 방식은 새로운 요리법을 가르치려면 AI 를 다시 교육해야 했지만, 이 방식은 지식만 있으면 바로 적용 가능합니다.

💡 결론: 왜 이것이 중요한가요?

이 연구는 **"AI 가 정해진 답지 없이도, 새로운 세상을 이해할 수 있다"**는 것을 증명했습니다.

실제 활용: 로봇이 새로운 주방 도구를 보고도 "이걸로 어떻게 요리할지" 스스로 분석하거나, 수술 로봇이 의사의 새로운 동작을 실시간으로 파악하는 데 쓰일 수 있습니다.
기여: 연구팀은 이 방식을 검증하기 위해 14 가지 AI 모델의 데이터를 모두 공개했습니다. 이는 다른 연구자들이 이 기술을 쉽게 개발하고 확장할 수 있도록 레고 블록을 미리 준비해 준 것과 같습니다.

한 줄 요약:

"기존 AI 는 정해진 답지만 외운 학생이지만, 이 새로운 방법은 모든 것을 아는 도서관 사서를 불러와서, 학습 없이도 비디오 속 행동을 자연스럽게 구분하게 만든 혁신적인 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 시간적 행동 분할 (Temporal Action Segmentation, TAS) 은 비디오를 의미 있는 행동 단위로 나누어 각 프레임에 행동 라벨을 할당하는 작업입니다. 이는 인간 활동 이해, 수술 로봇, 로봇 작업 학습 등 다양한 분야에서 중요합니다.
기존 방법의 한계: 기존의 TAS 방법론들은 대부분 **폐쇄적 어휘 (Closed Vocabulary)**에 제한되어 있습니다. 즉, 모델이 학습된 고정된 라벨 집합 내에서만 작동하며, 새로운 행동이나 보지 못한 도메인으로의 일반화가 어렵습니다.
핵심 과제: 행동의 공간은 매우 방대하며 (단 하나의 활동도 수십 개의 단계로 분해될 수 있음), 모든 가능한 행동 조합을 포함하는 대규모 데이터셋을 수집하는 것은 불가능합니다. 또한, 동일한 작업이라도 관점 (객체 중심 vs 과정 중심) 에 따라 다른 분할이 존재할 수 있습니다.
목표: 이러한 제한을 극복하기 위해, 새로운 행동 라벨에 대한 학습 (Training) 이나 미세 조정 (Fine-tuning) 없이도 작동하는 개방적 어휘 (Open-Vocabulary) 제로샷 (Zero-Shot) 시간적 행동 분할 (OVTAS) 을 수행하는 것을 목표로 합니다.

2. 제안 방법론 (Methodology)

저자들은 **시각 - 언어 모델 (Vision-Language Models, VLMs)**의 강력한 제로샷 능력을 활용하여 학습이 필요 없는 (Training-free) 파이프라인인 OVTAS를 제안합니다. 이 파이프라인은 "분류에 의한 분할 (Segmentation-by-classification)" 설계를 따르며, 두 단계로 구성됩니다.

A. 전체 파이프라인 (OVTAS Pipeline)

입력: 비디오 프레임과 행동 라벨의 집합 (Action Set Supervision, 순서나 경계는 모름).
Stage 1: 프레임 - 행동 임베딩 유사도 (FAES, Frame-Action Embedding Similarity)
- VLM 의 비전 인코더와 텍스트 인코더를 사용하여 프레임 임베딩 ( $X$ ) 과 행동 라벨 텍스트 임베딩 ( $A$ ) 을 생성합니다.
- 두 임베딩 간의 코사인 유사도를 계산하여 유사도 행렬 ( $S = XA^\top$ ) 을 생성합니다.
- 이 단계는 각 프레임이 어떤 행동과 가장 유사한지를 분류합니다.
Stage 2: 유사도 행렬 기반 시간적 분할 (SMTS, Similarity-Matrix Temporal Segmentation)
- Stage 1 의 결과인 프레임별 예측은 시간적 일관성이 부족할 수 있습니다. 이를 해결하기 위해 최적 수송 (Optimal Transport, OT) 기반의 디코더를 사용합니다.
- 비용 함수: 시각적 비용 ( $C = 1 - S$ ) 과 시간적 우선순위 (Temporal Prior, $R$ ) 를 결합합니다. 시간적 우선순위는 행동이 시간 순서대로 monotone 하게 정렬되도록 유도합니다.
- 해결: 엔트로피 정규화 (Entropy-regularized) 된 최적 수송 문제를 풀어 프레임과 행동 간의 최적 매칭 (Coupling, $\Pi^\star$ ) 을 찾습니다.
- 출력: 각 프레임에 대해 매칭된 행동 라벨을 할당하여 시간적으로 일관된 행동 시퀀스를 생성합니다.

B. 주요 특징

학습 불필요: VLM 은 사전 훈련된 가중치만 사용하며, 특정 태스크에 대한 추가 학습이나 미세 조정이 없습니다.
개방적 어휘: 사전 정의된 라벨 집합에 국한되지 않고, 자연어 프롬프트를 통해 임의의 행동 라벨을 입력으로 받을 수 있습니다.
데이터 효율성: 행동의 순서나 경계에 대한 정보가 없는 '행동 집합 (Action Set)'만 알면 됩니다.

3. 주요 기여 (Key Contributions)

OVTAS 파이프라인 제안: FAES 와 SMTS 로 구성된 2 단계 프레임워크를 통해, 태스크별 학습 없이도 시간적으로 일관된 행동 분할을 가능하게 했습니다.
포괄적인 VLM 연구: 14 가지 다양한 VLM (CLIP, SigLIP, OpenCLIP, PECore 계열 등) 과 모델 크기를 체계적으로 평가하여, 개방적 어휘 행동 분할에 적합한 모델의 특성과 성능 추세를 분석했습니다.
오픈 소스 및 데이터 공개: 3 개의 표준 벤치마크 (Breakfast, 50 Salads, GTEA) 에 대한 14 개 VLM 의 추출된 비전 - 언어 임베딩과 코드를 공개하여, 계산 자원의 장벽을 낮추고 후속 연구를 촉진했습니다.

4. 실험 결과 (Results)

벤치마크: Breakfast, 50 Salads, GTEA (Georgia Tech Egocentric Activities) 3 개 데이터셋에서 평가되었습니다.
성능 비교:
- 제안된 OVTAS 는 무작위 (Random), 균등 분할 (Equal-Splits) 등 기존 학습 불필요 베이스라인을 크게 상회하는 성능을 보였습니다.
- 특히 SigLIP 계열 모델이 다른 VLM 들 (CLIP, OpenCLIP 등) 보다 일관되게 우수한 성능을 보였습니다.
- GTEA 데이터셋: 시점 (Egocentric) 이고 행동이 세분화되어 있어 가장 어려웠으나, 여전히 유의미한 성능을 달성했습니다.
모델 크기와 성능: 흥미롭게도 모델의 파라미터 수를 늘리는 것 (Scaling up) 이 항상 성능 향상으로 이어지지는 않았습니다. 오히려 일부 경우 더 작은 모델이 더 좋은 결과를 보여주기도 했습니다. 이는 텍스트 프롬프팅이나 전처리 기법의 중요성을 시사합니다.
영향 요인 분석:
- 비디오 길이: 비디오가 길어질수록 성능이 저하되었습니다.
- 행동 세그먼트 수: 짧은 행동이 많이 포함된 데이터셋 (GTEA, 평균 36 개) 이 긴 행동이 포함된 데이터셋 (Breakfast, 평균 5 개) 보다 분할이 더 어려웠습니다.

5. 의의 및 결론 (Significance & Conclusion)

새로운 패러다임 제시: 기존 TAS 가 가진 '폐쇄적 어휘'의 한계를 깨고, VLM 의 제로샷 능력을 활용하여 학습 없이도 새로운 행동 영역으로 확장 가능한 분할이 가능함을 입증했습니다.
구조적 시간 이해: VLM 이 단순한 이미지 분류를 넘어, 구조화된 시간적 이해 (Temporal Understanding) 에도 효과적으로 적용될 수 있음을 보여주었습니다.
연구 촉진: 고비용의 특징 추출 과정을 제거하고 미리 추출된 임베딩을 공개함으로써, 연구자들이 VLM 을 활용한 행동 이해 연구에 더 쉽게 접근할 수 있는 기반을 마련했습니다.

이 논문은 VLM 을 활용한 행동 분할 분야에서 Open-Vocabulary Zero-Shot 접근법의 가능성을 열었으며, 향후 더 정교한 프롬프트 엔지니어링과 시간 모델링 기법을 통해 성능을 더욱 향상시킬 수 있는 방향을 제시합니다.