Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

Each language version is independently generated for its own context, not a direct translation.

🎬 배경: 왜 AI 는 긴 영상을 못 할까?

상상해 보세요. AI 는 아주 긴 영화를 보고 "그때 주인공이 오이 몇 개를 줍니까?"라고 질문을 받습니다.
기존의 AI(이 논문에서는 ReKV라고 부름) 는 이 작업을 할 때 다음과 같은 문제를 겪었습니다.

기억이 너무 빡빡함: 영화의 모든 장면을 다 기억하려면 책장 (메모리) 이 너무 커져서 감당할 수 없었습니다. 그래서 AI 는 중요한 장면만 '요약'해서 기억하려 했습니다.
요약의 함정: 하지만 너무 많이 요약하다 보니, **세부적인 디테일 (예: 오이의 정확한 개수)**이 사라져 버렸습니다.
시간에 따른 기억 왜곡: 시간이 지날수록 AI 는 "아까 본 장면보다 최근에 본 장면이 더 중요할 거야"라고 착각하게 되었습니다. 마치 친구가 오래된 이야기보다 방금 한 말만 기억하는 것처럼, 영상 끝부분의 장면만 찾아다녔습니다.

💡 해결책: 'MemStream'이라는 새로운 방법

저자들은 이 문제를 해결하기 위해 MemStream이라는 새로운 방법을 제안했습니다. 두 가지 핵심 아이디어를 사용했습니다.

1. "모든 것을 다 기억하지 말고, '핵심'만 골라라" (Adaptive Key Selection)

기존 방식은 영상을 볼 때 매 프레임마다 모든 정보를 다 저장하려다 보니, 비슷한 장면들이 중복되어 저장되고 중요한 정보는 묻혀버렸습니다.

비유: 친구가 여행 일기를 쓸 때, 매일 아침에 먹은 빵 사진까지 다 찍어두면 일기가 너무 두꺼워집니다. 대신 **"오늘 가장 특별했던 순간"**만 골라 찍어두는 겁니다.
기술적 의미: AI 가 영상을 볼 때, 중복되는 정보는 버리고 가장 독특하고 중요한 정보만 선별해서 기억합니다. 이렇게 하면 기억 공간은 줄이면서도, 필요한 세부 정보는 잃지 않게 됩니다.

2. "혼자서 기억하기보다, 전문가 팀을 부르라" (Mixture-of-Experts)

기존 AI 는 질문을 받으면 자기 머릿속 (내부 기억) 에서만 답을 찾으려 했습니다. 하지만 AI 의 머릿속 기억은 때로는 엉뚱한 장면을 찾아내기도 했습니다.

비유: 친구가 "어제 뭐 먹었지?"라고 물었을 때, 친구 혼자서 기억해 내는 대신 **주변에 있는 다른 친구들 (외부 전문가)**에게도 물어보는 것입니다. "너는 어제 뭐 먹었어?"라고 CLIP 이나 PECore 같은 다른 AI 모델들에게 물어보면, 훨씬 정확한 답을 찾을 수 있습니다.
기술적 의미: 질문이 들어오면, AI 는 자신의 내부 기억뿐만 아니라 다른 강력한 AI 모델들의 도움을 받아 가장 관련 있는 장면을 찾아냅니다. 여러 전문가의 의견을 합쳐서 (Mix) 정답을 도출하는 방식입니다.

🏆 결과: 얼마나 좋아졌나요?

이 새로운 방법 (MemStream) 을 적용한 결과, AI 는 다음과 같은 성과를 거두었습니다.

기존 AI (ReKV) 가 틀렸던 문제: "주인공이 두 번째로 줍은 오이는 몇 개였나요?"라고 물었을 때, 기존 AI 는 6 개라고 틀리게 답했습니다. (최근 장면만 기억해서 엉뚱한 숫자를 말한 것)
새로운 AI (MemStream) 의 정답: 3 개라고 정확히 답했습니다. (중요한 세부 사항을 잘 기억하고, 여러 전문가의 도움을 받아 정확한 장면을 찾아냈기 때문)

📝 한 줄 요약

이 논문은 **"긴 영상을 볼 때, AI 가 모든 것을 다 외우려 하지 말고 중요한 것만 골라 기억하고, 질문이 오면 혼자 끙끙 앓지 말고 다른 전문가들의 도움을 받아 정답을 찾아내면 훨씬 똑똑해진다"**는 것을 증명했습니다.

이 기술은 앞으로 유튜브 같은 긴 동영상을 실시간으로 분석하거나, 긴 영화의 내용을 완벽하게 기억하는 AI 비서 개발에 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

스트리밍 비디오 이해의 한계: 기존 최첨단 (SOTA) 비디오 이해 모델들은 긴 비디오 스트림을 처리하기 위해 키 - 밸류 (KV) 캐시를 사용하여 프레임 정보를 누적합니다. 그러나 이러한 방법들은 프레임당 토큰 수를 제한적으로 사용하여 미세한 시각적 세부 사항 (fine-grained visual details) 을 놓치는 경향이 있습니다.
토큰 스케일링의 역설: 연구진은 프레임당 토큰 수 (Token Budget) 를 늘려 더 세밀한 시공간 이해를 시도했으나, 오히려 성능이 저하되는 현상을 발견했습니다.
- 시간적 편향 (Temporal Bias): 토큰 수가 증가함에 따라 슬라이딩 윈도우 어텐션 메커니즘이 국소적 중복성 (redundancy) 을 증폭시켜, 쿼리 - 프레임 유사도 점수가 시간이 지남에 따라 지속적으로 증가하는 경향을 보였습니다. 이로 인해 모델이 비디오의 후반부 프레임을 과도하게 선호하게 되어, 실제 중요한 정보를 가진 프레임을 놓치게 됩니다.
- 레이어별 검색 불안정성: 내부 KV 캐시를 이용한 검색 (Internal Retrieval) 은 모델의 각 레이어마다 성능 편차가 크며, 일부 레이어는 관련 프레임을 전혀 찾아내지 못합니다. 또한, 내부 특징만으로는 정밀한 객체 속성이나 미세한 운동 정보를 파악하는 데 한계가 있습니다.

2. 제안 방법: MemStream (Methodology)

이 논문은 MemStream이라는 새로운 프레임워크를 제안하며, 이는 인코딩 단계와 검색 (Retrieval) 단계로 나뉩니다.

A. 인코딩 단계: 적응형 키 선택 (Adaptive Key Selection, AKS)

희소 슬라이딩 윈도우 어텐션: 기존 밀집된 (dense) 슬라이딩 윈도우 어텐션 대신, 중복된 신호를 제거하고 중요한 시공간 정보를 보존하는 희소화 전략을 도입합니다.
동작 원리:
- 슬라이딩 윈도우 내의 인접한 키 (Key) 특징 쌍 ( $K_t, K_{t-1}$ ) 을 비교합니다.
- 각 프레임의 패치 (patch) 단위 코사인 유사도를 계산하여, 가장 독특하고 중복되지 않는 (least similar) 상위 $k$ 개의 패치 특징만 선택합니다.
- 이 과정은 어텐션 계산 시에만 적용되며, KV 캐시에는 전체 키 특징이 저장되어 정보 손실을 최소화하면서도 계산 효율성을 높입니다.

B. 검색 단계: 학습 없는 전문가 혼합 (Training-free Retrieval Mixture-of-Experts)

내부 및 외부 신호 융합: 내부 어텐션 기반 검색과 외부 비전 - 언어 모델 (예: CLIP, PECore) 을 활용한 검색을 결합합니다.
상호 순위 융합 (Reciprocal Rank Fusion, RRF):
- 내부 레이어별 검색 결과와 외부 모델의 검색 결과를 단순히 점수를 합치는 것이 아니라, RRF 알고리즘을 사용하여 순위 기반으로 융합합니다.
- 이 방식은 한 전문가 (모델) 의 약점을 다른 전문가의 강점으로 보완하여, 레이어 간 검색 일관성을 높이고 전체적인 검색 품질을 개선합니다.
- 추가적인 학습 (Fine-tuning) 없이 사전 훈련된 모델들을 바로 활용할 수 있습니다.

3. 주요 기여 (Key Contributions)

심층 분석: KV 캐시 기반 방법론의 인코딩 및 검색 전략의 한계를 규명했습니다. 특히 토큰 수 증가가 오히려 시간적 편향을 유발하여 검색 성능을 떨어뜨린다는 것을 실험적으로 증명했습니다.
적응형 압축 및 선택 전략: 슬라이딩 윈도우 어텐션 중 적응형 키 선택 (AKS) 을 통해 공간 및 시간적 중복성을 줄이면서 정보 밀도를 높이는 설계 선택에 대한 포괄적인 연구를 수행했습니다.
효율적인 검색 아키텍처: 외부 모델의 특징을 활용하여 내부 검색을 보완하는 '학습 없는 전문가 혼합 (Training-free MoE)' 방법을 제안했습니다. 이는 추가 학습 비용 없이 검색 정확도를 극대화합니다.

4. 실험 결과 (Results)

Qwen2.5-VL-7B 모델을 기반으로 한 실험 결과, 기존 SOTA 방법인 ReKV 대비 다음과 같은 성과를 거두었습니다.

오프라인 벤치마크 (Offline Benchmarks):
- CG-Bench: +8.0% 향상 (ReKV 대비)
- LVBench: +8.5% 향상
- VideoMME (Long): +2.4% 향상
- 특히 AKS 만 적용해도 CG-Bench 에서 5.5%, LVBench 에서 4.1% 의 성능 향상을 보였으며, MoE 를 추가하면 추가적인 향상을 기록했습니다.
온라인 벤치마크 (Online Benchmarks):
- RVS-Ego: 정확도 3.6% 향상 (지연 시간 증가 없음)
- RVS-Movie: 약 2% 의 성능 하락 (과도한 압축으로 인한 것으로 분석됨)
효율성: 메모리 사용량과 지연 시간 (Latency) 은 기존 ReKV 와 유사하거나 개선된 수준을 유지하며, 긴 비디오 처리에 필요한 확장성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

토큰 스케일링의 재해석: 단순히 토큰 수를 늘리는 것이 해결책이 아님을 지적하고, 어떻게 토큰을 선택하고 압축하느냐가 스트리밍 비디오 이해의 핵심임을 증명했습니다.
실용적인 아키텍처: 추가 학습 없이 외부 모델의 강력한 특징 추출 능력을 KV 캐시 기반 시스템에 통합할 수 있는 방법을 제시하여, 긴 비디오에 대한 실시간 질문 응답 (VQA) 시스템의 실용성을 높였습니다.
미래 지향성: 이 연구는 긴 형식의 비디오 콘텐츠를 이해하는 데 있어 KV 캐시 메커니즘의 한계를 극복하고, 더 정교한 시공간 추론이 가능한 새로운 방향성을 제시합니다.

요약하자면, MemStream은 KV 캐시의 시간적 편향 문제를 해결하기 위해 **적응형 키 선택 (AKS)**을 도입하고, 검색의 안정성을 높이기 위해 외부 모델 기반의 전문가 혼합 (MoE) 전략을 결합함으로써, 긴 비디오 스트림에 대한 이해와 질문 응답 성능을 획기적으로 개선한 논문입니다.