OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

この論文は、動画の符号化(コーデック)の原理に基づき予測残差にのみ焦点を当てるスパースなアーキテクチャ「OneVision-Encoder」を提案し、少ない計算資源で画像・動画・文書理解の各種ベンチマークにおいて既存の強力なモデルを上回る性能を発揮することを示しています。

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が動画を見る方法を、人間の目や映画の仕組みに似せて劇的に変えた」**という画期的な研究です。

タイトルは『OneVision-Encoder』。少し難しそうですが、要するに**「無駄な情報を捨てて、本当に重要な部分だけを見て理解する AI」**を作ったという話です。

以下に、専門用語を排して、日常の例え話を使って解説します。


1. 従来の AI の問題点:「無駄な努力」

これまでの動画を見る AI は、**「すべてのフレームを均等に、そして全部見ている」**という考え方をしていました。

  • 例え話:
    あなたが映画館で映画を見ているとします。従来の AI は、**「スクリーンの隅々まで、静止画のように 1 秒 1 秒をすべて同じ重さで記憶しようとする」**ような状態です。
    • 背景の木々が揺れていない時でも、同じだけエネルギーを使います。
    • 登場人物が喋っていない間も、同じだけ計算しています。
    • 結果: 計算リソース(脳のエネルギー)の大部分が、「何の変化もない背景」や「静止画」に浪費されてしまい、本当に重要な「動き」や「出来事」に集中できていませんでした。

2. この論文の核心:「動画コーデック(圧縮技術)の真似」

この研究チームは、**「なぜ動画ファイル(MP4 など)は、写真よりもはるかに小さいサイズで保存できるのか?」**という疑問に注目しました。

  • 動画の仕組み(コーデック):
    動画ファイルは、**「最初の 1 枚の絵(I フレーム)」と、「その後の変化だけ(P フレーム)」**で構成されています。
    • 背景が変わらない時、ファイルは「前と同じですよ」という命令だけで済ませます(データ量ゼロ)。
    • 人が動いた時や、何か変化があった時だけ、「ここが変わりました」という情報(残差)だけを記録します。
    • つまり、動画の本質は「変化(動き)」にあるのです。

この論文の AI(OneVision-Encoder)は、この**「動画の圧縮技術(コーデック)」の仕組みを AI の学習方法そのものに採用**しました。

3. 具体的な仕組み:「注目すべき場所だけを見る」

この AI は、動画全体を均等に見るのではなく、「動きがある場所」や「変化が起きている場所」だけをピンポイントで切り取って処理します。

  • 例え話:「ニュースキャスターの視点」
    • 従来の AI: 画面全体をスキャンして、「空は青、木は緑、道路は灰色…」とすべてを記録しようとする。
    • OneVision-Encoder: 「あ!人が走っている!」「あ!車が曲がった!」という**「動きがある場所」だけ**を拡大して詳しく見る。背景の空や木は「特に変化なし」としてスルーする。
    • 効果: 処理する情報の量が**「3%〜25%」に激減**します。つまり、90% 以上の計算コストを節約しながら、重要な情報は逃しません。

4. なぜこれがすごいのか?

通常、「情報を削れば精度が落ちる」のが常識ですが、この研究では**「情報を削る(スパースにする)ことで、むしろ精度が上がり、速度も速くなった」**と証明しました。

  • 驚異的な結果:
    • 従来の強力な AI(Qwen3-ViT や SigLIP2 など)よりも、はるかに少ないデータ量で学習しながら、動画理解のテストで4% 以上も高い成績を収めました。
    • 特に「ダイビング」のような激しく動くシーンや、「料理」のような一瞬の動きを捉えるタスクで、他を圧倒しました。
    • 重要な発見: 「効率(速さ)」と「精度(正しさ)」はトレードオフ(どちらかを選ばなければならない)ではなく、**「正しい仕組み(コーデックの原理)に合わせれば、両方とも向上する」**ことがわかりました。

5. まとめ:AI の未来は「賢い省略」

この論文が示唆するのは、**「人工知能(AGI)の本質は、情報を圧縮することにある」**という考え方です。

  • 従来の AI: すべてを記憶しようとする「メモ帳」。
  • OneVision-Encoder: 何が必要で、何が不要かを瞬時に判断し、「本質だけ」を抽出する「賢い編集者」

まるで、映画の編集者が「不要なカットを削り、物語の核心となるシーンだけを繋ぎ合わせて、より感動的な作品を作る」ように、この AI は**「動画の本質(動きと意味)」だけを捉えることで、より高度な理解を可能にしました。**

これは、これからの AI が、より少ないエネルギーで、より賢く、人間のように「変化」に敏感に反応するようになるための重要な一歩です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →