Xray-Visual Models: Scaling Vision models on Industry Scale Data

Facebook と Instagram の業界規模のデータを用いて大規模に学習された Xray-Visual は、効率的なアーキテクチャと多段階のトレーニング手法により、画像・動画理解およびクロスモーダル検索において最先端のパフォーマンスと高い汎用性を達成する統合ビジョンモデルです。

Shlok Mishra, Tsung-Yu Lin, Linda Wang, Hongli Xu, Yimin Liu, Michael Hsu, Chaitanya Ahuja, Hao Yuan, Jianpeng Cheng, Hong-You Chen, Haoyuan Xu, Chao Li, Abhijeet Awasthi, Jihye Moon, Don Husa, Michael Ge, Sumedha Singla, Arkabandhu Chowdhury, Phong Dingh, Satya Narayan Shukla, Yonghuan Yang, David Jacobs, Qi Guo, Jun Xiao, Xiangjun Fan, Aashu Singh

公開日 2026-02-20
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、メタ(Facebook や Instagram を運営する会社)の研究者たちが、**「インターネット上の膨大な写真と動画から、世界最高峰の『目』を持つ AI を育て上げた」**という壮大なプロジェクトの報告書です。

専門用語を排し、わかりやすい例え話を使って解説します。

🎯 結論:どんな AI ができたの?

この AI(名前はXray-Visual)は、単に「猫と犬の区別」ができるだけではありません。

  • 目: 写真だけでなく、動画も同時に理解できます。
  • 耳(言語): 普通の AI が使う「辞書」ではなく、「LLaMA」という超高性能な言語モデル(AI 小説家のようなもの)を耳として使っています。
  • 能力: 学術的なテスト(教科書の問題)だけでなく、「現実世界の雑多なデータ」(SNS の投稿など)でも、他の AI よりもはるかに賢く、頑丈に動きます。

🌟 3 つの大きな特徴(魔法のレシピ)

この AI を強くするために、研究者たちは 3 つの「魔法のレシピ」を使いました。

1. 📚 100 億冊以上の「図書館」から勉強させた(データ量)

これまでの AI は、きれいに整理された教科書(学術データ)で勉強することが多かったのですが、Xray-Visual はFacebook や Instagram の投稿という「生々しい現実世界」から学びました。

  • 量: 写真と文章のペアが150 億組、動画とハッシュタグのペアが100 億組
  • 工夫: SNS の投稿には「URL」や「絵文字」などのノイズ(ゴミ)が多いので、AI が混乱しないよう、**「ゴミ取り掃除」「偏りをなくすバランス調整」**を徹底して行いました。
    • 例え話: 100 億冊の図書館から、ただ本を並べるだけでなく、「面白い本」と「地味な本」の比率を調整し、読書が退屈しないようにしたようなものです。

2. 🎓 3 段階の「教育カリキュラム」で育てた(学習方法)

いきなり難しいテストを受けさせるのではなく、3 つの段階で段階的に成長させました。

  1. 第 1 段階(暗記): 写真の一部分を隠して、「隠れた部分はどんな色だった?」と予想させるゲーム(MAE)。これで**「形や色」の基礎**を学びます。
  2. 第 2 段階(分類): 写真に付いているハッシュタグ(#猫 #海)を見て、「これは何の画像か?」を当てる練習。これで**「物体の名前」**を覚えます。
  3. 第 3 段階(対話): 写真と文章(キャプション)をセットにして、「この写真とこの文章はマッチしているか?」を学習します。ここで**「LLaMA」という超賢い言語モデル**を「耳」につけ、文章のニュアンスまで深く理解できるようにしました。

3. ⚡ 省エネで高速な「目」を作った(効率化)

通常、高解像度の画像を処理すると AI は重くなります。しかし、Xray-Visual は**「EViT(Efficient Vision Transformer)」という技術を使い、「注目すべき部分だけ見て、無視できる部分は捨てて処理する」**という工夫をしています。

  • 例え話: 1000 人の群衆の中から「誰か」を探すとき、全員をじっと見つめるのではなく、動きのある人や目立つ人だけを追いかけるようにして、処理速度を 4 倍にしました。

🏆 結果:なぜこれがすごいのか?

📉 学術テスト vs 現実世界

多くの AI は、きれいな教科書(学術データ)では高得点を取りますが、現実の SNS 画像(ノイズが多い、角度がおかしい、照明が悪い)になると、急にバカになってしまいます。

  • Xray-Visual の強み: 現実世界の「汚れた」データで大量に勉強したおかげ、どんな状況でも安定して高性能を発揮します。
    • 例え話: 練習場(教科書)では完璧な選手でも、雨の日の試合(現実世界)では転んでしまう選手が多い中、Xray-Visual は泥濘(ぬかるみ)の中でも走れる選手です。

🗣️ 言語モデル(LLM)の導入

ここが最大の画期的な点です。従来の AI は、文章を理解する能力が低く、「この画像は『悲しい』という感情を表している」といったニュアンスがわかりませんでした。

  • LLM2CLIP: 文章を理解する天才(LLaMA)を「耳」につけることで、**「画像と文章の深い意味」**を結びつけられるようになりました。
    • 結果: 検索機能などが劇的に向上し、ユーザーが「夏休みの思い出」と検索すれば、単に「海」の写真だけでなく、「楽しそうな笑顔」の写真もヒットするようになります。

🚀 実際の使い道

この AI はすでにメタのサービスで使われ始めています。

  • おすすめ動画: あなたが見ている動画に似た、もっと面白い動画を提案する。
  • 広告マッチング: 投稿された動画に、一番合っている広告を表示する。
  • 検索: 写真や動画から、意味が通じるものを検索する。

💡 まとめ

この論文は、**「大量のデータ(100 億組)」「賢い先生(LLM)」「効率的な勉強法(3 段階学習)」を組み合わせることで、「教科書だけでなく、現実世界でも最強の目を持つ AI」**を作ったことを報告しています。

これにより、AI は単なる「画像認識機」から、**「人間の感覚に近い理解力を持つパートナー」**へと進化しようとしています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →