Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

이 논문은 폐쇄형 VLM 에 의존하지 않고 7 개의 새로운 비디오 데이터셋과 2 개의 멀티이미지 데이터셋, 그리고 효율적인 학습 레시피를 통해 공개된 가중치 및 데이터 중 최첨단 성능을 달성하고 비디오 이해 및 정밀한 지시 (grounding) 능력을 혁신적으로 향상시킨 'Molmo2'모델을 소개합니다.

Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

몰모2 (Molmo2): 비디오를 보고, 이해하고, 손가락으로 가리키는 '열린 눈'

이 논문은 인공지능이 비디오를 보고 이해하는 능력을 획기적으로 발전시킨 새로운 모델 '몰모2 (Molmo2)'를 소개합니다. 기존의 최고 성능 모델들은 대부분 비밀스러운 '비밀 레시피'로 만들어져 누구나 접근할 수 없었지만, 몰모2 는 그 모든 것을 공개했습니다.

이 복잡한 내용을 일반인도 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. "비밀 레시피" vs "오픈 키친"

기존 상황:
지금까지 비디오를 가장 잘 이해하는 AI 들은 '비밀 식당'에 있었습니다. 셰프가 만든 요리는 맛있지만, 레시피와 재료가 어디에서 왔는지 알려주지 않습니다. 연구자들은 이 요리를 맛보고 "이건 어떻게 만들었지?"라고 궁금해할 뿐, 직접 따라 해보거나 더 발전시킬 수 없었습니다.

몰모2 의 혁신:
몰모2 는 **'오픈 키친'**입니다.

  • 완전한 공개: 이 모델의 두뇌 (가중치), 학습에 쓰인 재료 (데이터), 그리고 요리법 (코드) 을 모두 공개했습니다.
  • 독립적인 학습: 다른 비밀 식당의 요리를 베끼거나 (Distillation), 그 식당의 요리사가 가르쳐 주는 것을 쓰지 않았습니다. 오직 인간이 직접 만든 데이터와 오픈 소스 도구만으로 학습했습니다.
  • 결과: 누구나 이 모델을 가져와서 자신의 필요에 맞게 고칠 수 있게 되어, AI 연구의 민주화가 이루어졌습니다.

2. "대략적인 요약" vs "정교한 현장 지시"

기존 AI 들은 비디오를 볼 때 **"대략적인 내용"**만 이해했습니다.

  • 예시: "사람이 공을 차고 있습니다." (이 정도는 알지만, 언제, 어디에, 몇 번인지 모릅니다.)

하지만 몰모2 는 현장 지휘관처럼 행동합니다.

  • 손가락으로 가리키기 (Grounding): "저기 3 초 15 초에, 화면 오른쪽 구석에 있는 빨간 공을 가리켜!"라고 하면, AI 가 정확히 그 순간과 위치를 **손가락으로 가리키는 점 (Point)**으로 표시해 줍니다.
  • 추적하기 (Tracking): "저기 움직이는 개를 계속 따라가 봐."라고 하면, 개가 화면을 떠날 때까지 그 개를 지속적으로 따라가며 위치를 표시해 줍니다.
  • 세부 설명: 단순히 "차 한 대가 지나갔다"가 아니라, "검은색 FedEx 차가 11 번 번호로, 노란 차보다 먼저 지나갔다"처럼 매우 디테일한 설명을 해줍니다.

3. "수업용 교재" vs "현장 실습 데이터"

이 모델이 이렇게 똑똑해진 이유는 엄청난 양의 새로운 교재를 공부했기 때문입니다. 연구팀은 기존에 없던 9 가지 새로운 데이터셋을 직접 만들었습니다.

  • 비밀스러운 데이터가 아닌, 인간이 만든 데이터:
    • 밀도 높은 설명: 비디오 한 장 한 장을 마치 드라마 대본처럼 상세하게 설명하는 데이터를 10 만 개 이상 만들었습니다. (기존 모델들은 짧고 막연한 설명만 들었습니다.)
    • 질문과 답변: "저기서 몇 마리의 물소가 보이나요?" 같은 세부적인 질문에 답할 수 있도록 훈련시켰습니다.
    • 손가락 훈련: "이 순간의 이 물체를 가리켜"라는 명령을 수백만 번 반복하며 정확한 위치 감각을 익혔습니다.

몰모2 가 할 수 있는 놀라운 일들 (실제 예시)

  1. 세상에서 가장 정확한 카운터:
    • "저기 경기장에서 몇 번의 골이 들어갔나요?"라고 물으면, 단순히 숫자만 말하는 게 아니라 "골이 들어간 순간을 손가락으로 찍어" 보여줍니다. (기존 오픈 모델들보다 훨씬 정확합니다.)
  2. 비디오 속의 탐정:
    • "녹색 셔츠를 입은 사람의 이름이 뭐야?"라고 물으면, 비디오 속 대사와 상황을 분석해 **"로브 (Rob) 입니다"**라고 답합니다.
  3. 시간과 공간을 자유자재로:
    • "첫 번째 골을 넣은 선수가 어떻게 축하하나요?"라고 물으면, **"골을 넣은 후 골대에서 벗어나 옆으로 미끄러지듯 이동하며, 혀를 내밀고 웃은 뒤 손가락 두 개를 들어 올립니다"**라고 시간 순서대로 생생하게 묘사합니다.

결론: 왜 이것이 중요한가요?

지금까지 비디오 AI 는 "대략적인 느낌"을 주는 수준이었습니다. 하지만 몰모2 는 **비디오 속의 사물을 정확히 찾아내고, 그 움직임을 추적하며, 복잡한 상황을 설명할 수 있는 '현실적인 눈'**을 갖게 되었습니다.

가장 중요한 점은 이 기술이 누구나 사용할 수 있게 열려 있다는 것입니다. 이제 연구자들과 개발자들은 이 '열린 눈'을 바탕으로 로봇, 자율주행, 의료 영상 분석 등 다양한 분야에서 더 똑똑한 시스템을 만들 수 있게 되었습니다.

한 줄 요약:

"비밀스러운 AI 가 아니라, 누구나 배우고 발전시킬 수 있는 '현장 지휘관' 같은 비디오 AI 가 탄생했습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →