ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

이 논문은 긴 비디오 이해를 위해 RGB 프레임의 압축된 표현과 잡음을 제거한 정제된 모션 표현을 활용하여 계산 효율성을 극대화하고 여러 벤치마크에서 기존 모델을 능가하는 성능을 보여주는 ReMoRa 라는 멀티모달 대규모 언어 모델을 제안합니다.

Daichi Yashima, Shuhei Kurita, Yusuke Oda, Komei Sugiura

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 ReMoRa: 긴 영상을 한눈에 파악하는 '스마트 영화 평론가'

이 논문은 **"ReMoRa"**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 긴 동영상 (영화, 다큐멘터리, 긴 유튜브 영상 등) 을 보고 내용을 이해하고 질문에 답하는 데 특화되어 있습니다.

기존의 AI 들은 긴 영상을 볼 때 "모든 프레임을 하나하나 세세하게 보려고 노력하다가 지쳐버리는" 문제가 있었습니다. ReMoRa 는 이 문제를 압축된 영상 데이터를 clever 하게 활용하여 해결했습니다.

이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.


1. 문제: "모든 장면을 다 보는 건 불가능해!" 🤯

상상해 보세요. 2 시간짜리 영화를 이해하려면 2 시간 동안 매초마다 30 장씩, 총 216,000 장의 사진을 AI 가 봐야 합니다.
기존 AI 는 이 모든 사진을 한 장도 빠뜨리지 않고 보려고 하다가, 컴퓨터 메모리가 터지거나 (과부하), 중요한 순간을 놓치는 실수를 저지릅니다. 마치 2 시간짜리 영화를 볼 때, 매 초마다 눈을 깜빡이지 않고 빤히 쳐다보려고 하다가 정작 중요한 대사를 놓치는 것과 비슷합니다.

2. 해결책: ReMoRa 의 '스마트 요약법' 🧠

ReMoRa 는 이 문제를 해결하기 위해 **영상 압축 기술 (H.264 등)**을 그대로 활용합니다. 영상을 볼 때 모든 장면을 보는 대신, 다음과 같이 두 가지로 나누어 봅니다.

A. "핵심 장면 (I-프레임)" = 영화의 포스터 🖼️

  • 영상에는 중요한 장면 (배경, 인물 얼굴, 사물) 이 잘 찍힌 **'키 프레임'**이 몇 개 있습니다.
  • ReMoRa 는 이 '포스터' 같은 장면들만 골라 선명하게 봅니다. "누가, 어디서, 무엇을 하고 있는지"를 파악하는 데 필수적입니다.

B. "움직임 (P/B-프레임)" = 애니메이션의 '흐름' 🏃‍♂️

  • 포스터 사이사이의 장면들은 사실 배경이 거의 똑같고, 사람만 조금 움직입니다.
  • ReMoRa 는 이 부분에서 실제 사진 (RGB) 을 보지 않습니다. 대신, **"사람이 어디로 얼마나 움직였는지"**를 나타내는 **화살표 (운동 벡터)**만 봅니다.
  • 비유: 영화의 모든 장면을 그리는 대신, 인물의 움직임만 화살표로 표시한 스케치를 본다고 생각하세요. 데이터 양은 1/100 으로 줄지만, "누가 어디로 갔는지"는 완벽하게 알 수 있습니다.

3. 기술의 핵심: "거친 스케치를 명화처럼 다듬다" 🎨

여기서 한 가지 문제가 생깁니다. 화살표 (운동 벡터) 는 컴퓨터가 만든 거친 데이터라 노이즈가 많고 부정확할 수 있습니다. 마치 손으로 대충 그린 스케치처럼요.

ReMoRa 는 이 문제를 해결하기 위해 두 가지 마법 도구를 사용합니다.

① RMR 모듈: "스케치를 명화로 다듬는 화가" 🖌️

  • 거칠고 노이즈가 많은 운동 화살표를 받아서, 세밀하고 정확한 움직임으로 변환해 줍니다.
  • 마치 손으로 그린 초벌 스케치를 AI 가 보정하여 디테일한 명화처럼 만들어주는 과정입니다. 덕분에 AI 는 미세한 손짓이나 물체의 움직임도 정확히 파악할 수 있습니다.

② HMSS 모듈: "긴 이야기를 한 줄로 정리하는 편집자" 📝

  • 긴 영상을 처리할 때, 모든 장면을 한 번에 비교하면 컴퓨터가 미쳐버립니다 (계산량이 너무 많음).
  • ReMoRa 는 영상을 **작은 덩어리 (GOP)**로 나누어, 각 덩어리 안에서는 움직임을 정리하고, 덩어리끼리는 시간의 흐름을 자연스럽게 연결합니다.
  • 비유: 2 시간짜리 영화를 볼 때, 장면별로 요약본을 만들고, 그 요약본들을 시간순으로 이어 붙여 하나의 긴 이야기로 만드는 편집자와 같습니다. 이렇게 하면 계산량이 급격히 줄어들면서도 긴 이야기의 흐름을 놓치지 않습니다.

🏆 결과: 왜 ReMoRa 가 특별한가요?

이 방법을 통해 ReMoRa 는 다음과 같은 성과를 냈습니다.

  1. 빠르고 가볍습니다: 모든 프레임을 보지 않아도 되므로, 기존 모델보다 메모리를 절반 이상 덜 쓰면서도 훨씬 더 많은 영상을 처리할 수 있습니다.
  2. 긴 영상도 잘 봅니다: 1 시간, 2 시간짜리 영상에서도 중요한 순간을 놓치지 않고 정확한 질문 답변이 가능합니다. (예: "영화를 끝까지 보고, 주인공이 마지막에 무엇을 입었는지 말해줘" 같은 질문)
  3. 성능이 뛰어납니다: 여러 가지 긴 영상 이해 테스트 (LongVideoBench, NExT-QA 등) 에서 기존 최고의 모델들보다 더 높은 점수를 받았습니다.

📝 한 줄 요약

ReMoRa 는 "모든 장면을 다 보는 게 아니라, '핵심 장면 (포스터)'과 '움직임 (화살표)'만 smart 하게 조합해서, 긴 영상을 빠르고 정확하게 이해하는 똑똑한 AI 영화 평론가"입니다.

이 기술은 앞으로 로봇이 집안일을 이해하거나, 시각 장애인을 위한 영상 설명 서비스, 긴 교육 영상 요약 등 다양한 분야에서 혁신을 일으킬 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →