Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

本論文は、パッチサイズを縮小して最小の1x1(ピクセル)まで拡張する「パッチ化のスケーリング則」を実証し、圧縮を伴わない視覚モデルが従来のViTやMambaなど多様なアーキテクチャで性能向上を実現できることを示しています。

Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

公開日 2026-02-23
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「AI が画像を見る方法」を根本から変えるかもしれない、とても面白い発見について書かれています。

タイトルにある「1 枚の画像は 50,176 個のトークン(言葉の単位)に相当する」というのは、少し驚きですよね。なぜなら、これまでの AI は画像を「圧縮」して見ていたからです。

この論文を、難しい専門用語を使わずに、**「高解像度カメラ」と「ピクセル(画素)」**の例えを使って説明しますね。

1. 従来の方法:「モザイク」で見る AI

これまでの AI(Vision Transformer など)は、画像を処理するときに、**「モザイク」**のようなことをしていました。

  • 例え話:
    あなたが 1 枚の美しい風景写真を AI に見せたとします。
    従来の AI は、その写真を**「16×16 の大きなタイル」**に切り分けて、それぞれのタイルを「1 つの言葉(トークン)」として扱っていました。
    • 224×224 ピクセルの画像なら、16×16 のタイルにすると、全体でたった196 個の「言葉」しか使いません。
    • メリット: 計算が楽で、メモリも少なくて済みます。
    • デメリット: 細かい情報(花びらの繊細な模様や、空のグラデーションなど)が「モザイク」によって捨てられてしまいます。まるで、**「大まかな輪郭だけを見て、詳細は想像で補う」**ような状態です。

2. この論文の発見:「ピクセル」まで見る AI

この研究チームは、「もしかして、その『モザイク』を捨てて、1 ピクセル 1 ピクセルまで細かく見ていたらどうなる?」と試してみました。

  • 発見された法則(スケーリング・ロー):
    「タイル(パッチ)を小さくすればするほど、AI の性能は上がり続ける!」

    • 16×16 → 8×8 → 4×4 → 2×2 → 1×1(ピクセルそのもの)
    • なんと、タイルを最小の「1 ピクセル」まで小さくしたところ、50,176 個もの「言葉」を使って画像を理解できるようになりました。
    • その結果、画像認識の精度が劇的に向上しました(従来の 82.6% から 84.6% へ)。
  • 重要なポイント:
    以前は「計算量が爆発して無理だ」と言われていましたが、最新のハードウェア(GPU)や新しい技術のおかげで、**「1 枚の画像を、すべてのピクセルを無視せずに、そのまま全部読み取る」**ことが可能になったのです。

3. 驚きの副産物:「翻訳者」が不要になった

画像を処理する AI は、通常 2 つのパートに分かれています。

  1. エンコーダー(理解する部分): 画像を特徴として捉える。
  2. デコーダー(翻訳する部分): 特徴を元に、何の画像かや、どこに物体があるかを詳しく説明する。

これまでの常識では、「画像を圧縮(モザイク化)して理解した後は、**『翻訳者(デコーダー)』**が頑張って、欠落した情報を補って詳細を説明する必要がある」と考えられていました。

しかし、この研究では**「タイルを小さくして、AI がピクセルレベルで詳しく見られるようにしたら、『翻訳者』がいなくても、AI 自体が完璧に理解できるようになった」**ことがわかりました。

  • 例え話:
    以前は「大まかな地図(モザイク)を渡されて、詳しい案内人(デコーダー)に頼らなければ目的地が見つからなかった」のが、
    **「GPS 付きの超高精細地図(ピクセル単位)を渡したら、案内人がいなくても自分で目的地にたどり着けるようになった」**ようなものです。

4. なぜこれが重要なのか?

  • 情報の無駄遣いをやめよう: これまでの AI は、画像という「宝の山」から、計算の都合上、多くの情報を捨てていました。この研究は、「捨てていた情報こそが、AI を賢くする鍵だった」と教えてくれます。
  • 新しい時代の幕開け: これまで「計算が重すぎて無理」と言われていた「ピクセル単位の完全な理解」が、これからの AI の新しい基準(パラダイム)になりつつあります。

まとめ

この論文は、**「AI に画像を見せる時、モザイク処理で粗く見るのではなく、1 画素 1 画素まで細かく見てあげれば、AI は驚くほど賢くなり、余計な補助装置も不要になる」**という、シンプルだが革命的な発見を伝えています。

これからの AI は、「圧縮された情報」ではなく、「ありのままの細部」から学んでいく時代へ移行するかもしれません。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →