Each language version is independently generated for its own context, not a direct translation.

몰모2 (Molmo2): 비디오를 보고, 이해하고, 손가락으로 가리키는 '열린 눈'

이 논문은 인공지능이 비디오를 보고 이해하는 능력을 획기적으로 발전시킨 새로운 모델 '몰모2 (Molmo2)'를 소개합니다. 기존의 최고 성능 모델들은 대부분 비밀스러운 '비밀 레시피'로 만들어져 누구나 접근할 수 없었지만, 몰모2 는 그 모든 것을 공개했습니다.

이 복잡한 내용을 일반인도 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. "비밀 레시피" vs "오픈 키친"

기존 상황:
지금까지 비디오를 가장 잘 이해하는 AI 들은 '비밀 식당'에 있었습니다. 셰프가 만든 요리는 맛있지만, 레시피와 재료가 어디에서 왔는지 알려주지 않습니다. 연구자들은 이 요리를 맛보고 "이건 어떻게 만들었지?"라고 궁금해할 뿐, 직접 따라 해보거나 더 발전시킬 수 없었습니다.

몰모2 의 혁신:
몰모2 는 **'오픈 키친'**입니다.

완전한 공개: 이 모델의 두뇌 (가중치), 학습에 쓰인 재료 (데이터), 그리고 요리법 (코드) 을 모두 공개했습니다.
독립적인 학습: 다른 비밀 식당의 요리를 베끼거나 (Distillation), 그 식당의 요리사가 가르쳐 주는 것을 쓰지 않았습니다. 오직 인간이 직접 만든 데이터와 오픈 소스 도구만으로 학습했습니다.
결과: 누구나 이 모델을 가져와서 자신의 필요에 맞게 고칠 수 있게 되어, AI 연구의 민주화가 이루어졌습니다.

2. "대략적인 요약" vs "정교한 현장 지시"

기존 AI 들은 비디오를 볼 때 **"대략적인 내용"**만 이해했습니다.

예시: "사람이 공을 차고 있습니다." (이 정도는 알지만, 언제, 어디에, 몇 번인지 모릅니다.)

하지만 몰모2 는 현장 지휘관처럼 행동합니다.

손가락으로 가리키기 (Grounding): "저기 3 초 15 초에, 화면 오른쪽 구석에 있는 빨간 공을 가리켜!"라고 하면, AI 가 정확히 그 순간과 위치를 **손가락으로 가리키는 점 (Point)**으로 표시해 줍니다.
추적하기 (Tracking): "저기 움직이는 개를 계속 따라가 봐."라고 하면, 개가 화면을 떠날 때까지 그 개를 지속적으로 따라가며 위치를 표시해 줍니다.
세부 설명: 단순히 "차 한 대가 지나갔다"가 아니라, "검은색 FedEx 차가 11 번 번호로, 노란 차보다 먼저 지나갔다"처럼 매우 디테일한 설명을 해줍니다.

3. "수업용 교재" vs "현장 실습 데이터"

이 모델이 이렇게 똑똑해진 이유는 엄청난 양의 새로운 교재를 공부했기 때문입니다. 연구팀은 기존에 없던 9 가지 새로운 데이터셋을 직접 만들었습니다.

비밀스러운 데이터가 아닌, 인간이 만든 데이터:
- 밀도 높은 설명: 비디오 한 장 한 장을 마치 드라마 대본처럼 상세하게 설명하는 데이터를 10 만 개 이상 만들었습니다. (기존 모델들은 짧고 막연한 설명만 들었습니다.)
- 질문과 답변: "저기서 몇 마리의 물소가 보이나요?" 같은 세부적인 질문에 답할 수 있도록 훈련시켰습니다.
- 손가락 훈련: "이 순간의 이 물체를 가리켜"라는 명령을 수백만 번 반복하며 정확한 위치 감각을 익혔습니다.

몰모2 가 할 수 있는 놀라운 일들 (실제 예시)

세상에서 가장 정확한 카운터:
- "저기 경기장에서 몇 번의 골이 들어갔나요?"라고 물으면, 단순히 숫자만 말하는 게 아니라 "골이 들어간 순간을 손가락으로 찍어" 보여줍니다. (기존 오픈 모델들보다 훨씬 정확합니다.)
비디오 속의 탐정:
- "녹색 셔츠를 입은 사람의 이름이 뭐야?"라고 물으면, 비디오 속 대사와 상황을 분석해 **"로브 (Rob) 입니다"**라고 답합니다.
시간과 공간을 자유자재로:
- "첫 번째 골을 넣은 선수가 어떻게 축하하나요?"라고 물으면, **"골을 넣은 후 골대에서 벗어나 옆으로 미끄러지듯 이동하며, 혀를 내밀고 웃은 뒤 손가락 두 개를 들어 올립니다"**라고 시간 순서대로 생생하게 묘사합니다.

결론: 왜 이것이 중요한가요?

지금까지 비디오 AI 는 "대략적인 느낌"을 주는 수준이었습니다. 하지만 몰모2 는 **비디오 속의 사물을 정확히 찾아내고, 그 움직임을 추적하며, 복잡한 상황을 설명할 수 있는 '현실적인 눈'**을 갖게 되었습니다.

가장 중요한 점은 이 기술이 누구나 사용할 수 있게 열려 있다는 것입니다. 이제 연구자들과 개발자들은 이 '열린 눈'을 바탕으로 로봇, 자율주행, 의료 영상 분석 등 다양한 분야에서 더 똑똑한 시스템을 만들 수 있게 되었습니다.

한 줄 요약:

"비밀스러운 AI 가 아니라, 누구나 배우고 발전시킬 수 있는 '현장 지휘관' 같은 비디오 AI 가 탄생했습니다."

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

몰모2 (Molmo2): 비디오를 보고, 이해하고, 손가락으로 가리키는 '열린 눈'

1. "비밀 레시피" vs "오픈 키친"

2. "대략적인 요약" vs "정교한 현장 지시"

3. "수업용 교재" vs "현장 실습 데이터"

몰모2 가 할 수 있는 놀라운 일들 (실제 예시)

결론: 왜 이것이 중요한가요?

Molmo2: 비디오 이해 및 그라운딩을 위한 오픈 가중치 및 데이터 기반의 차세대 비전-언어 모델

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 데이터 구축 (Data Collection)

2.2. 모델 아키텍처 및 학습 전략

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

4.1. 벤치마크 성능

4.2. 인간 선호도 평가

5. 의의 및 결론 (Significance)

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

몰모2 (Molmo2): 비디오를 보고, 이해하고, 손가락으로 가리키는 '열린 눈'

1. "비밀 레시피" vs "오픈 키친"

2. "대략적인 요약" vs "정교한 현장 지시"

3. "수업용 교재" vs "현장 실습 데이터"

몰모2 가 할 수 있는 놀라운 일들 (실제 예시)

결론: 왜 이것이 중요한가요?

Molmo2: 비디오 이해 및 그라운딩을 위한 오픈 가중치 및 데이터 기반의 차세대 비전-언어 모델

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 데이터 구축 (Data Collection)

2.2. 모델 아키텍처 및 학습 전략

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

4.1. 벤치마크 성능

4.2. 인간 선호도 평가

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems