ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

ViT の高計算コストを解決するため、マルチヘッド自己注意機構への結合型構造化プルーニングと、フィードフォワードネットワーク向けにグローバル伝播を回避するトークンチャネル選択(TCS)を組み合わせたフレームワーク「ToaSt」を提案し、精度と効率性の両立を実現した。

Hyunchan Moon, Cheonjun Park, Steven L. Waslander

公開日 2026-02-19
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文「ToaSt」は、画像認識 AI(Vision Transformer)を**「もっと軽く、もっと速く、そしてもっと賢く」**するための新しい方法を紹介しています。

AI は頭が良すぎて、スマホや小さな機械で動かすのが大変なほど重くなってしまっています。これを解決するために、研究者たちは「不要な部分を削ぎ落とす(圧縮する)」技術を開発しました。しかし、これまでの方法は「削るのに時間がかかりすぎる」か「削りすぎて頭が悪くなってしまう」という問題がありました。

ToaSt は、この問題を**「2 つの異なる道具」**を使って、まるで料理のレシピを最適化するように解決しました。


🍳 料理の例えで理解する ToaSt

AI を「巨大な料理屋」と想像してください。この料理屋には、2 つの主要な作業場(モジュール)があります。

  1. 注目する場所を決める作業場(MHSA):「この料理のどこが重要か?」を全体的に見渡して決める場所。
  2. 味付けと調理をする作業場(FFN):実際に材料を混ぜて味を決める場所。実は、ここが全体の作業量の60% 以上を占めています。

これまでの圧縮技術は、この 2 つの作業場を**「同じ方法」**で無理やり縮めようとしていました。でも、それは「作業場全体を壊して作り直す」ようなもので、とても時間がかかり、味(精度)が落ちてしまうことがありました。

ToaSt は、**「それぞれの作業場に合った、専用の道具」**を使います。

1. 作業場 1(MHSA)へのアプローチ:「チームの人数調整」

  • これまでの方法:チーム全員をバラバラに減らすと、連携が取れなくなって失敗します。
  • ToaSt の方法:「チームの連携」を重視します。
    • 料理人のチーム(ヘッド)が 8 人いるとします。ToaSt は、「質問をする人(Q)」と「答えを探す人(K)」はセットで減らし、「材料を渡す人(V)」と「結果を渡す人(P)」もセットで減らすというルールを作りました。
    • これにより、チームの人数は減っても、連携は完璧に保たれます。
    • 結果:作業場を壊さずに、必要な人数だけ減らして、「再トレーニング(味付けのやり直し)」の時間を大幅に短縮できました。

2. 作業場 2(FFN)へのアプローチ:「不要なスパイスの選別(Token Channel Selection)」

  • これまでの問題:味付け作業場には、実は**「ほとんど使われていないスパイス(ノイズ)」**が大量に入っていました。でも、それを削ると味が変わってしまうと恐れ、削りきれませんでした。
  • ToaSt の発見
    • 深い層(後半の工程)に行くと、スパイスの**「90% 以上が実は使われていない(無駄)」**ことがわかりました。
    • さらに、**「一部のスパイスを使えば、残りのスパイスの味をほぼ再現できる」**という性質(線形依存性)があることも発見しました。
  • ToaSt の方法
    • **「トレーニング不要(Training-free)」**な選別機を導入しました。
    • 全スパイスを味見する必要はなく、**「少しだけサンプルを味見する」**だけで、「どのスパイスが本当に必要か」を瞬時に判断します。
    • 不要なスパイス(ノイズ)を大胆に捨てます。
    • 結果:作業場のスペースが空いて、**「余計なノイズがなくなるので、逆に味が(精度が)良くなる」**という奇跡が起きました。

🚀 ToaSt がもたらすすごい成果

この「2 つの道具」を組み合わせることで、以下のような驚くべき結果が出ました。

  • 超高速化:AI の計算量が約 40% 減りました。つまり、スマホでもサクサク動くようになります。
  • 精度向上:削ったはずなのに、精度が逆に上がりました(例:ViT-MAE-Huge で +1.64%)。
    • なぜ? → 不要なノイズ(無駄なスパイス)を捨てたおかげで、AI が本当に重要な情報に集中できるようになったからです。
  • 再トレーニングが楽:これまでの方法では、削った後に元の味を取り戻すために何ヶ月もかかることがありました。ToaSt は、最大モデルでも 15 回程度の短い練習(微調整)だけで、元の味(以上)を取り戻せます。

🎯 まとめ:なぜこれが画期的なのか?

これまでの AI 圧縮は、「重たい荷物を下ろすために、荷物を壊して作り直す」ようなものでした。

ToaSt は、**「荷物の中身を確認して、本当に不要なゴミだけを捨て、残った荷物を整理整頓する」**というスマートな方法です。

  • ゴミ(ノイズ)を捨てる → 精度が上がる。
  • 整理整頓 → 計算が速くなる。
  • 作り直し不要 → すぐに使える。

この技術を使えば、高性能な AI が、もっと手軽なデバイス(スマホやドローンなど)で、より賢く、より速く動くようになる未来が近づきます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →