HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "너무 똑똑하지만, 낯선 말에는 멍청한 AI"

지금까지 비디오 검색 AI 는 **"기존에 배운 말"**만 잘 알아듣습니다.
예를 들어, AI 가 **"사람이 상자를 들고 있다"**라는 문장을 학습했다면, 이 문장에 딱 맞는 장면을 찾아냅니다.

하지만 현실은 다릅니다. 사용자가 "사람" 대신 "인간", **"상자" 대신 "카드보드 박스"**라고 말하거나, 문장 구조를 완전히 바꿔서 **"상자를 든 인간"**이라고 검색하면?
기존 AI 는 당황해서 엉뚱한 장면을 찾아내거나 아예 못 찾습니다. 마치 외국어 단어 하나만 바뀌어도 문맥을 전혀 이해하지 못하는 번역기처럼요.

이 논문은 **"왜 AI 는 낯선 표현이나 새로운 단어에 약한가?"**를 지적하며, 이를 해결하기 위해 새로운 기준과 기술을 제안합니다.

🛠️ 2. 새로운 기준 (HERO 의 등장)

연구진은 먼저 AI 를 시험할 **새로운 시험지 (벤치마크)**를 만들었습니다.
기존 시험지는 "배운 단어만 나오는 문제"였는데, 이번엔 **"아직 배운 적 없는 낯선 단어와 표현이 섞인 문제"**를 내는 거죠.

Charades-OV, ActivityNet-OV: 이 두 가지가 바로 그 새로운 시험지입니다. 여기서 'OV'는 'Open Vocabulary(열린 어휘)'를 뜻합니다. 즉, AI 가 학교에서 배운 게 아니라, 시험장에서 처음 보는 낱말을 보고도 문제를 풀어야 하는 상황입니다.

🦸 3. 해결책: HERO (영웅) 의 비밀 무기

이 새로운 시험지를 통과하기 위해 연구진은 HERO라는 새로운 AI 모델을 만들었습니다. HERO 는 두 가지 핵심 전략을 사용합니다.

① "다층적 이해" (Hierarchical Embedding)

비유: 책을 읽을 때, 단순히 **단어 하나하나 (Lexical)**만 보는 게 아니라, **문장 전체의 의미 (Semantic)**와 **작가의 의도 (Concept)**까지 동시에 파악하는 능력입니다.
설명: HERO 는 문장을 여러 층으로 나누어 봅니다.
- 아래층: "사람", "상자" 같은 단어 자체를 봅니다.
- 위층: "상자를 들고 있는 상황"이라는 전체 의미를 봅니다.
- 이렇게 여러 층으로 이해하기 때문에, "사람"이 "인간"으로 바뀌어도 "상자를 들고 있는 상황"이라는 핵심 의미는 변하지 않는다는 걸 알아챕니다.

② "동시 정제 엔진" (Parallel Refinement)

HERO 는 비디오와 텍스트를 동시에 다듬는 두 가지 도구를 사용합니다.

도구 A: "텍스트가 알려주는 시선" (Semantic-Guided Visual Filter)
- 비유: 친구가 "저기 빨간 차 봐!"라고 말하면, 우리 눈은 빨간 차에 집중하고 배경의 나무나 건물은 자연스럽게 무시하죠.
- 설명: 텍스트 (질문) 를 보고 비디오의 불필요한 배경 잡음은 제거하고, 질문과 관련된 부분만 확대해 줍니다.
도구 B: "빈칸 채우기 훈련" (Contrastive Masked Text Refiner)
- 비유: 친구가 "____가 상자를 들고 있다"라고 말했을 때, 빈칸이 비어 있어도 문맥상 '사람'일 거라고 추측할 수 있죠.
- 설명: AI 가 문장의 일부 단어를 가리고 (마스크) 비디오를 보게 한 뒤, 원래 문장과 비교해서 일관된 답을 내도록 훈련시킵니다. 이렇게 하면 낯선 단어가 나오더라도 문맥을 통해 유추해내는 강인함을 기릅니다.

🏆 4. 결과: 왜 이것이 중요한가?

기존 AI: 낯선 단어가 나오면 "이건 배운 게 없는데?"라며 포기하거나 엉뚱한 장면을 보여줍니다.
HERO: 낯선 단어가 와도 "아, 이건 '사람'을 뜻하는 다른 표현이구나"라고 추론하며 정확한 장면을 찾아냅니다.

실험 결과, HERO 는 기존에 가장 잘하던 AI 들보다 **낯선 표현이 섞인 상황 (Open-Vocabulary)**에서 압도적으로 좋은 성적을 거두었습니다. 이는 AI 가 단순히 **기억 (암기)**하는 것을 넘어, **이해 (추론)**하는 단계로 발전했음을 의미합니다.

💡 한 줄 요약

"기존 AI 는 배운 말만 알아듣지만, HERO 는 낯선 말과 새로운 표현도 문맥을 통해 이해하여 비디오 속 정확한 장면을 찾아내는 '영웅'입니다."

이 연구는 앞으로 우리가 AI 에게 더 자연스럽고 다양한 방식으로 질문을 던져도, AI 가 실수 없이 이해할 수 있는 토대를 마련했다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경:
비디오 내 시간적 문장 정렬 (Temporal Sentence Grounding in Videos, TSGV) 은 자연어 쿼리에 해당하는 비디오 세그먼트의 시작과 끝 시간을 찾는 작업입니다. 기존 연구들은 주로 폐쇄적 어휘 (Closed-Vocabulary) 설정 하에 수행되어 왔습니다. 즉, 학습 데이터와 테스트 데이터가 동일한 어휘 집합을 공유한다고 가정합니다.

한계점:
실제 세계에서는 학습 과정에서 보지 못한 새로운 객체, 동작, 또는 다양한 문장 구조 (패러프레이징) 가 등장할 수 있습니다. 기존 모델들은 이러한 어휘의 변화 (Vocabulary Shift) 에 매우 취약하며, 단순히 학습된 패턴을 암기하는 경향이 있어 새로운 표현이 포함된 쿼리에서는 성능이 급격히 저하됩니다.

제안된 과제 (OV-TSGV):
저자들은 오픈 어휘 시간적 문장 정렬 (Open-Vocabulary TSGV, OV-TSGV) 이라는 새로운 과제를 정의했습니다.

목표: 학습 데이터에 존재하지 않는 개념 (새로운 단어) 이나 다양한 문장 표현이 포함된 테스트 쿼리에 대해 정확한 시간적 위치를 찾아내는 것.
정의: 쿼리의 각 어휘 단위 (lexical unit) 를 하나의 '클래스'로 간주하며, 학습 중 보지 못한 클래스가 하나라도 포함된 쿼리에 대해 모델을 평가합니다.

2. 방법론 (Methodology)

저자들은 OV-TSGV 문제를 해결하기 위해 HERO (Hierarchical Embedding-Refinement for Open-vocabulary grounding) 라는 통합 프레임워크를 제안했습니다. HERO 는 계층적 임베딩과 병렬 교차 모달 정제 (Parallel Cross-modal Refinement) 를 결합한 구조입니다.

A. 계층적 임베딩 모듈 (Hierarchical Embedding Module, HEM)

목적: 단순한 토큰 수준의 인코딩을 넘어, 다양한 문장 표현 간의 의미적 동등성을 포착하여 일반화 능력을 향상시킵니다.
구조: Transformer 인코더의 여러 층 (Layer 2, 4, 6 및 입력 임베딩) 에서 추출된 특징을 활용하여 4 단계의 계층적 의미 표현을 생성합니다.
- 낮은 수준: 어휘적 단서 (Lexical cues)
- 높은 수준: 개념적 추상화 (Semantic abstractions)
효과: "boy grabs skateboard"와 "kid picks up object"와 같이 표현은 다르지만 의미가 동일한 경우를 효과적으로 처리할 수 있게 합니다.

B. 교차 모달 필터링 및 정제 엔진 (Cross-modal Filtering and Refinement Engine, CFRE)

HEM 에서 추출된 계층적 특징들을 병렬로 처리하며, 두 가지 보완적인 서브모듈을 통해 비디오 - 텍스트 정렬을 강화합니다.

의미 유도 시각 필터 (Semantic-Guided Visual Filter, SGVF):
- 텍스트 쿼리를 키 (Key) 와 값 (Value) 으로, 비디오 프레임을 쿼리 (Query) 로 사용하는 크로스 어텐션 메커니즘을 적용합니다.
- 시그모이드 함수를 통해 생성된 가중치로 비디오 특징을 조정하여, 쿼리와 무관한 배경 노이즈를 억제하고 관련 시각적 콘텐츠만 강화합니다.
대조적 마스킹 텍스트 정제기 (Contrastive Masked Text Refiner, CMTR):
- 텍스트 쿼리의 일부 토큰을 무작위로 마스킹 (Masking) 하여 손상된 변형 ( $Q^m$ ) 을 생성합니다.
- 원본 쿼리와 손상된 쿼리 모두에 대해 비디오 - 텍스트 정렬 점수를 계산한 후, 대조 학습 (Contrastive Learning) 을 통해 두 결과 간의 일관성을 유지하도록 학습합니다.
- 목적: 텍스트 입력이 불완전하거나 노이즈가 있더라도 모델이 강건하게 작동하도록 합니다.

C. 출력 및 손실 함수

각 계층에서 생성된 시간적 경계 예측과 정렬 점수를 학습 가능한 가중치로 가중 합산하여 최종 결과를 도출합니다.
총 손실 함수는 TSGV 기본 손실, 정렬 점수 손실 ( $L_{RS}$ ), 대조 학습 손실 ( $L_{CL}$ ) 을 결합하여 구성됩니다.

3. 주요 기여 (Key Contributions)

최초의 OV-TSGV 벤치마크 구축:
- 기존 Charades-STA 와 ActivityNet Captions 데이터를 기반으로, 테스트 쿼리에 학습되지 않은 새로운 개념을 포함하도록 재작성한 Charades-OV와 ActivityNet-OV를 구축했습니다.
- 이 벤치마크는 실제적인 어휘 변화와 문장 변형을 시뮬레이션하여 모델의 일반화 능력을 엄격하게 평가할 수 있는 환경을 제공합니다.
HERO 프레임워크 제안:
- 계층적 의미 추상화 (HEM) 와 병렬 교차 모달 정제 (CFRE) 를 통합하여, 미지의 언어 개념과 표현에 대한 강력한 정렬 및 일반화 능력을 갖춘 모델을 개발했습니다.
성능 입증:
- 기존 폐쇄적 어휘 설정 (Charades-STA) 과 제안된 오픈 어휘 설정 (Charades-OV, ActivityNet-OV) 모두에서 State-of-the-Art (SOTA) 성능을 달성했습니다.

4. 실험 결과 (Results)

오픈 어휘 벤치마크 (Charades-OV, ActivityNet-OV):
- HERO 는 기존 최첨단 모델들 (Moment-DETR, VSLNet, EMB 등) 보다 모든 평가 지표 (R1@0.3, R1@0.5, R1@0.7) 에서 일관되게 우월한 성능을 보였습니다.
- 특히 ActivityNet-OV 에서 R1@0.5 기준 기존 SOTA 대비 3.53% 향상, Charades-OV 에서 R1@0.7 기준 1.21% 향상을 기록했습니다. 이는 어휘 변화에 대한 모델의 강건성을 입증합니다.
폐쇄적 어휘 벤치마크 (Charades-STA):
- 기존 데이터셋에서도 HERO 는 61.05% (R1@0.5) 의 성능을 기록하여 이전 SOTA 모델들을 능가했습니다.
교차 데이터셋 일반화:
- Charades-CD 로 학습하고 ActivityNet-CD 로 테스트하는 교차 검증에서도 기존 방법론 대비 성능 향상을 보이며, 도메인 간 일반화 능력이 뛰어남을 입증했습니다.
Ablation Study:
- HEM 과 CFRE 의 각 구성 요소 (SGVF, CMTR) 를 개별적으로 제거했을 때 성능이 저하되었으며, 모든 요소를 결합했을 때 최적의 성능을 발휘함을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 - 언어 이해 분야에서 오픈 어휘 설정 (Open-Vocabulary Setting) 의 중요성을 처음으로 체계적으로 제기했습니다. 기존 연구들이 데이터셋 편향 (Bias) 에만 초점을 맞추거나 폐쇄적 어휘 내에서만 작동했던 한계를 극복하고, 실제 세계의 다양하고 변화하는 언어 표현에 대응할 수 있는 새로운 방향을 제시했습니다.

HERO 프레임워크는 단순한 성능 개선을 넘어, 의미적 추상화와 강건한 교차 모달 정제를 통해 모델이 새로운 개념을 학습 없이도 추론할 수 있는 능력을 함양하는 방법을 제시했습니다. 이는 향후 오픈 월드 (Open-World) 환경에서의 비디오 이해, 인간 - 컴퓨터 상호작용, 지능형 감시 등 다양한 응용 분야에서 중요한 기반이 될 것으로 기대됩니다.