Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Vision Mamba の自己回帰事前学習において、画像の区切りを示す「STAR(Separators for AutoRegressive pretraining)」を導入することで入力シーケンス長を 4 倍に拡張し、ImageNet-1k で 83.5% の高精度を達成する手法を提案しています。

Hanpeng Liu, Zidan Wang, Shuoxi Zhang, Kaiyuan Gao, Kun He

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🖼️ 画像認識の「Mamba」を長距離走選手にする方法

「STAR」という新しいアイデアで、AI がもっと賢くなる話

こんにちは!今日は、最新の AI 研究「STAR(Separators for AutoRegressive pretraining)」について、難しい専門用語を使わずに、わかりやすくお話しします。

この研究は、**「Mamba(マンバ)」**という新しい AI の仕組みを、画像認識の分野でさらに強力にする方法を見つけました。


1. 背景:Mamba とはどんな AI?

まず、Mambaという AI についてお話ししましょう。
Mamba は、長い文章や長いデータの流れを処理するのが非常に得意な AI です。まるで**「記憶力が抜群で、長い物語を一度に読破できる読書家」**のような存在です。

しかし、これまでの画像認識のトレーニング方法では、Mamba のこの「長い物語を読む能力」をフル活用できていませんでした。

  • これまでの方法: 1 枚の画像だけを「短い物語」として読んでいた。
  • Mamba の得意分野: 何枚も何枚もつながった「長い物語」を一度に読むこと。

この「得意な能力」と「使われている方法」のミスマッチを解消するために、この論文では新しいアイデア**「STAR」**を提案しました。


2. 解決策:「STAR」とは?(セパレーターという「区切り」)

STARの核心は、**「区切り(Separator)」**を入れることです。

🧩 従来の悩み:バラバラの画像

通常、AI に画像を教えるとき、1 枚ずつ別々に扱います。

  • 「これは猫の画像」
  • 「これは車の画像」
  • 「これは花の画像」

これらを Mamba という「長距離走選手」に教える場合、1 枚ずつ走らせても、その能力は発揮されません。

🚂 STAR のアイデア:列車のようにつなぐ

STAR は、**「複数の画像を、1 つの長い列車(シーケンス)のようにつなげて教える」**というアイデアです。

でも、ここで問題があります。
「猫」「車」「花」がただつながっただけだと、AI は「どこで猫が終わり、車が始まるのか?」がわからなくなります。

そこで登場するのが**「区切り(Separator)」**です。

  • 区切りとは? 画像と画像の間に挟む、**「特別な目印」**です。
  • どんな目印? 白と黒のマス目(0 と 1 のパターン)でできた、目立つ「信号機」のようなものです。

【イメージ】

🚂 区切り 🐱(猫の画像)🚂 区切り 🚗(車の画像)🚂 区切り 🌸(花の画像)

このように、「区切り」を挟むことで、AI は「あ、ここから新しい画像が始まったんだな」と理解できるようになります。


3. なぜこれがすごいのか?

この「区切り」を入れるだけで、3 つの大きなメリットが生まれます。

  1. Mamba の能力が 4 倍に!
    1 枚の画像を 4 枚分つなげて学習させることで、Mamba が得意とする「長いデータ処理」をフル活用できます。まるで、短い距離走ではなく、マラソン選手として鍛え直すようなものです。

  2. 画像の境界がはっきりする
    「区切り」があるおかげで、AI は「前の画像の終わり」と「次の画像の始まり」を明確に区別できます。これにより、画像ごとの特徴をより正確に学べます。

  3. より賢い「クラストークン(答えの場所)」
    従来の AI は、画像の「真ん中」に答えを出す場所(クラストークン)を持っていましたが、STAR は**「画像の最後」**に答えを出す場所を置きました。

    • 例え話: 物語の「途中」で結論を言うのではなく、「物語のすべてを読み終わった後」に結論を言う方が、より正確な判断ができるのと同じです。

4. 実験結果:どれくらい強くなった?

この方法(STAR)を使って、有名な画像認識テスト「ImageNet-1k」を行いました。

  • これまでの記録: 約 82.5% 程度の正解率。
  • STAR の成績: 83.5% という驚異的な正解率!

これは、同じ Mamba を使った他の方法よりも優れており、従来のトップクラスの AI(ViT-B など)とほぼ同等、あるいはそれ以上の性能を、より少ない計算量で達成しました。

また、「区切り」の形や位置を色々と変えて実験したところ、**「画像の先頭に、白黒のマス目(区切り)を置く」**のが最も効果的であることがわかりました。


🌟 まとめ:何が新しいの?

この論文のポイントは、**「AI に『区切り』を入れることで、複数の画像を 1 つの長い物語として教える」**というシンプルな発想です。

  • Mambaは「長い物語を読むのが得意な読書家」。
  • STARは「複数の本を 1 つの長い巻物にして、ページの間にはっきりとした『章の区切り』を入れる」方法。

この工夫によって、AI は画像をより深く、より広く理解できるようになり、より賢くなりました。

これは、AI のトレーニング方法に新しい風を吹き込む、非常に画期的な研究です!🚀