OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

이 논문은 자기지도 학습 기반의 쿼리 집중 그라운딩과 대비 학습 기반의 모달리티 주의 융합 전략을 통해 오디오 - 비주얼 이해 능력을 강화한 새로운 강화 프레임워크 'OmniVideo-R1'을 제안하고, 다양한 벤치마크에서 기존 모델보다 우수한 성능을 입증합니다.

Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

게시일 2026-02-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 오미비디오-R1: "눈과 귀를 동시에 쓰는" 똑똑한 AI의 비밀

이 논문은 인공지능(AI)이 동영상과 소리를 함께 보고 들으며 더 똑똑하게 생각할 수 있게 만든 새로운 기술, **'오미비디오-R1(OmniVideo-R1)'**에 대한 이야기입니다.

기존의 AI들은 영상을 볼 때 소리를 무시하거나, 소리를 들을 때 영상을 제대로 보지 못하는 경우가 많았어요. 마치 눈을 가리고 귀만 막은 채 영화를 보는 것처럼 말이죠. 이 새로운 기술은 AI에게 "눈과 귀를 모두 열어두고, 질문의 의도를 파악해서 정확한 증거를 찾아내라"고 가르쳤습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: "왜 더 많은 정보가 오히려 방해가 될까?"

기존의 최첨단 AI 모델들은 영상만 볼 때는 아주 잘했지만, 소리를 추가하면 오히려 성능이 떨어지는 이상한 현상이 있었습니다.

  • 비유: 마치 유능한 요리사가 있습니다. 이 요리사는 오직 '재료(영상)'만 보고도 훌륭한 요리를 만들죠. 그런데 갑자기 '요리 비법 책(소리)'을 옆에 두게 했더니, 오히려 집중이 안 되어 요리를 망쳐버리는 꼴이 된 거예요.
  • 원인: AI가 소리와 영상을 따로따로 처리하다 보니, 서로 정보가 섞이지 않고 오히려 혼란을 겪은 것입니다.

2. 해결책: 오미비디오-R1의 두 가지 마법

이 문제를 해결하기 위해 연구팀은 AI에게 두 가지 특별한 훈련을 시켰습니다.

🎯 첫 번째 훈련: "질문의 의도를 파악하고 증거를 찾아라 (Query-Intensive Grounding)"

AI에게 "이 영상에서 중요한 순간을 찾아봐"라고만 하면, AI는 막연하게 전체를 훑어볼 뿐입니다. 하지만 이 훈련은 AI에게 **"질문자가 무엇을 알고 싶어 하는지 먼저 생각해보고, 그와 관련된 영상과 소리의 특정 구간을 딱 집어내라"**고 가르칩니다.

  • 비유: 수사관이 된 AI를 상상해보세요.
    • 일반 AI는 "범인은 어딘가?"라고 묻자마자 전체 CCTV 영상을 무작위로 훑습니다.
    • 오미비디오-R1은 먼저 "범인이 도망친 건지, 숨은 건지?"라는 질문의 의도를 파악합니다. 그리고 나서 "아, 범인이 도망쳤다면 3 분 10 초짜리 문이 열리는 소리와 그 순간의 그림이 중요하겠구나!"라고 정확한 시간과 장소를 찾아냅니다.
    • 이 훈련은 AI가 스스로 "이 부분이 중요해!"라고 생각하게 만드는 자기주도 학습 방식입니다.

🎧 두 번째 훈련: "눈과 귀를 하나로 묶어라 (Modality-Attentive Fusion)"

이제 AI가 중요한 부분을 찾았으니, 눈(영상)과 귀(소리)가 서로 싸우지 않고 협력하게 만들어야 합니다.

  • 비유: 듀엣 가수를 생각해보세요.
    • 한 명은 노래만 부르고, 다른 한 명은 춤만 추면 어색하죠.
    • 이 훈련은 AI에게 **"소리가 들릴 때 영상을 더 잘 보고, 영상이 움직일 때 소리를 더 잘 들어라"**고 시킵니다.
    • 만약 AI가 소리만 듣고 답을 맞췄다면 점수를 주지 않고, 영상과 소리를 모두 활용해서 더 정확한 답을 낼 때만 큰 점수를 줍니다. 이렇게 하면 AI는 자연스럽게 두 감각을 하나로 융합하는 법을 배우게 됩니다.

3. 결과: 어떻게 변했을까?

이 두 가지 훈련을 거친 AI는 놀라운 변화를 보였습니다.

  • 정답률 상승: 복잡한 영상과 소리를 함께 이해해야 하는 문제에서 기존 AI들보다 훨씬 높은 점수를 받았습니다.
  • 단순 영상도 잘함: 소리를 추가해서 훈련시켰는데, 소리가 없는 영상만 봐도 오히려 더 잘하게 되었습니다. (눈과 귀가 협력하는 법을 익히니, 눈만으로도 더 똑똑해진 셈입니다.)
  • 실제 사례: 예를 들어, "이 영상에서 누가 웃었나요?"라는 질문에, AI는 단순히 얼굴만 보는 게 아니라 "웃음소리가 들리는 순간"을 찾아서 정확히 답할 수 있게 되었습니다.

🌟 요약: 왜 이 기술이 중요할까요?

우리가 세상을 볼 때는 눈과 귀가 함께 작동합니다. 이 논문은 AI에게도 인간처럼 눈과 귀를 동시에 써서 세상을 이해하는 법을 가르쳤습니다.

  • 기존 AI: "영상은 보고, 소리는 무시하거나 혼란스러워함."
  • 오미비디오-R1: "질문을 듣고, 중요한 순간을 찾아내며, 눈과 귀의 정보를 완벽하게 섞어 답을 도출함."

이 기술은 앞으로 AI가 영화 분석, 보안 감시, 교육 콘텐츠 제작 등 다양한 분야에서 인간처럼 자연스럽게 소통하고 이해하는 데 큰 역할을 할 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →