Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Molmo2 は、クローズドな VLM に依存しない 7 つの新しい動画データセットと 2 つのマルチ画像データセット、および効率的なトレーニング手法を採用し、オープンウェイトモデルとして最高水準のパフォーマンスを達成すると同時に、動画の指し示しや追跡といったグラウンディング能力において既存のオープンモデルだけでなくプロプライエタリモデルさえも凌駕する新しいビジョン・ランゲージモデルファミリーです。

Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

モルモ2(Molmo2):動画の「目」と「指」を備えた、オープンな天才 AI の紹介

こんにちは!今日は、AI 研究の世界から届いたとてもワクワクするニュース、「Molmo2(モルモ2)」について、難しい専門用語を使わずに、わかりやすくお話しします。

想像してみてください。あなたが「この動画の中で、赤い服を着た人がいつ、どこで転んだか教えて」と尋ねたとき、AI が「転んだ瞬間のフレームを指差して、正確な場所と時間を教えてくれる」ような未来。これが Molmo2 が実現しようとしていることです。

🎬 従来の AI と Molmo2 の違い:「黒箱」から「透明な箱」へ

これまでの最強の動画 AI は、Google や OpenAI などの巨大企業が作った「黒箱(ブラックボックス)」でした。

  • 中身が見えない: 何で学習したか、どう動いているか、誰も知りません。
  • 指差しができない: 「あの鳥はどこ?」と聞いても、「鳥がいます」と言うだけで、「ここだよ!」と画面を指差すことはできませんでした。

一方、Molmo2 は**「透明な箱」**です。

  • すべて公開: 使ったデータ、学習のレシピ、コード、すべてがオープン(誰でも見られる状態)です。
  • 指差しと追跡: 動画の中の物体を「指差す」だけでなく、動き回る物体を「追いかける」こともできます。

まるで、**「魔法のメガネ」**をかけたようなものです。普通の AI は動画を見て「何かが動いている」と言うだけですが、Molmo2 は「あそこの、あの瞬間の、あの物体だよ!」と、ピタリと指差して教えてくれます。


🛠️ どのように作られた?「料理のレシピ」から「食材」まで

Molmo2 がすごいのは、「他の AI の真似」をしていない点です。

多くのオープンな AI は、すでに完成された「黒箱の AI」に動画を見せて、その答えをコピーして学習させています(これを「蒸留」と言います)。でも、Molmo2 は違います。

  • 人間の手作業: 研究者たちは、人間に動画を見てもらい、**「この動画には何が起こっているか、詳しく話して」**と録音させました。
  • AI と人間のタッグ: その録音を文字起こしし、さらに AI が補足して、**「1 本の動画に、本 1 冊分くらいの詳細な説明」**を作りました。
  • 指差しの練習: 人間に「動画の中で、ボールがどこを転がったか、クリックして教えて」という練習を何十万回もさせました。

これは、**「料理のレシピを、誰かの真似ではなく、一から食材を買い出し、調理法をゼロから開発して完成させた」**ようなものです。だから、Molmo2 は「オープンな世界」で最も強力な AI になったのです。


🌟 Molmo2 ができる「3 つの魔法」

Molmo2 は、動画を見るだけで終わらず、以下のようなことができるようになります。

1. 🎯 指差しとカウント(Pointing & Counting)

  • できること: 「この動画に何台の車が映っていますか?」と聞くと、「10 台!」と答えるだけでなく、「1 台目、2 台目…」と画面のどこに車がいたかを、ドットで指差して示してくれます
  • : 競馬の動画で「黄色い馬を抜いたのは何番の馬?」と聞けば、黒い 11 番の馬が黄色い馬を抜く瞬間を指差して教えてくれます。

2. 🏃 物体の追跡(Tracking)

  • できること: 「あの踊り子を追いかけて」と言うと、動画の中で踊り子が左から右へ移動しても、**「ここにいるよ、次はここ、次はあそこ」**と、一瞬たりとも見失わずに追いかけてくれます。
  • : 混雑した駅で、特定の人の動きをずっと追いかけることができます。

3. 📝 超詳細な説明(Captioning)

  • できること: 動画の内容を、**「あの人が紫色の着物を着て、ATM の横に立っていた」**といった、非常に細かくて長い文章で説明できます。
  • : 普通の AI が「人がいる」と言うところを、Molmo2 は「誰が、何を、いつ、どこで、どんな表情でしていたか」まで詳しく語り尽くします。

🏆 なぜこれが重要なの?

Molmo2 は、**「オープンソース(誰でも使える自由な技術)」の世界で、「クローズド(企業だけが使える高価な技術)」**に匹敵、あるいは凌駕する性能を出しました。

  • ロボットに役立つ: 家事ロボットが「赤いカップをテーブルから取って」と言われたとき、Molmo2 は「いつ、どこにカップがあるか」を正確に指差し、ロボットが安全に作業できるように助けます。
  • スポーツ分析: 「あの選手がゴールを決めた瞬間を教えてください」と聞けば、正確な瞬間と位置を特定できます。
  • 研究の民主化: これまで「企業だけが持っていた最強の技術」が、世界中の研究者や開発者に開放されました。これにより、さらに新しい発見が生まれるはずです。

🚀 まとめ:動画理解の「新時代」の幕開け

Molmo2 は、単に「動画を見て話す AI」ではありません。
**「動画を見て、指を差し、動きを追いかける、透明でオープンな天才」**です。

まるで、**「動画の世界に、人間の目と指差し、そして記憶力を与えた」**ようなものです。これからは、AI が動画の内容を「言葉」だけでなく、「場所」と「時間」として理解し、私たちが求める情報をピンポイントで教えてくれる時代が来るでしょう。

この技術は、AI の未来を「誰にでも開かれたもの」にするための、大きな一歩なのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →