RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

この論文は、シーケンス長に対して厳密に線形な計算量を持つ「RACE Attention」を提案し、従来の Softmax Attention では不可能だった最大 7500 万トークンの長文脈を単一のフォワード・バックワードパスで処理可能にすることで、大規模言語モデルの長文脈学習を現実的なものにする手法を提示しています。

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala, Ekam Singh, Evan Tu, Anshumali Shrivastava

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 今の AI はなぜ「長い文章」が苦手なのか?(現在の問題)

今の AI(Transformer)は、文章を理解する際、**「すべての単語同士を照らし合わせる」という作業を行います。
これを
「ソフトマックス・アテンション」**と呼びますが、この仕組みには大きな欠点があります。

  • 例え話:
    10 人のパーティがあったとしましょう。誰が誰と会話をしているかを知るために、**「全員が全員と握手をする」必要があります。10 人なら 100 回の握手(10×10)で済みます。
    しかし、100 万人の巨大なパーティになったらどうでしょう?
    全員が全員と握手しようとしたら、1 兆回(100 万×100 万)の握手が必要になります。
    これをコンピュータが計算しようとすると、時間とメモリが足りなくなって、
    「もう処理しきれない!」**となってしまいます。

これが、現在の AI が「長い本」や「長い動画」を一度に理解しようとした時に、計算が追いつかなくなる理由です(これを「二次関数的な爆発」と呼びます)。

2. RACE Attention の解決策:「全員と握手」は不要!

この論文が提案する**「RACE Attention」は、「全員と握手する必要はないよ!」と提案します。代わりに、「グループ分けをして、代表者とだけ話す」**という賢い方法を使います。

具体的な仕組み:3 つのステップ

① 魔法のグループ分け(LSH:局所感受性ハッシュ)
まず、100 万人の参加者を、**「似ている人同士」**が同じグループに入るように、魔法のフィルター(ハッシュ関数)で 100 個のグループに分けます。

  • ポイント: 似ている人同士は、たまたま同じグループに入る確率が高いのです。

② グループの「まとめ帳」を作る(RACE スケッチ)
各グループには、そのグループにいる人たちの「まとめ帳(統計データ)」だけを作ります。

  • 全員の名前と握手の記録(1 兆回分)を作るのではなく、**「グループ A にはこんな特徴がある人たちがいる」という「要約」**だけを作ります。
  • これにより、データ量が劇的に減ります。

③ 代表者とだけ話す
AI が「この単語の意味は?」と聞かれたとき、まず自分がどのグループに属するかを確認し、**「そのグループのまとめ帳」**だけを見て、答えを導き出します。

  • 全員と握手する必要がなくなったので、計算量は**「人数に比例する(直線的)」**だけで済みます。
  • 100 万人になっても、10 人になっても、かかる時間はほぼ同じくらいです。

3. なぜこれがすごいのか?(実験結果)

この「RACE Attention」を使って実験したところ、驚くべき結果が出ました。

  • 超長文の処理:
    従来の最高性能な AI(FlashAttention など)は、**「400 万トークン(約 200 万文字)」を超えると、メモリ不足で動かなくなりました。
    しかし、RACE Attention は、
    「7500 万トークン(約 3700 万文字)」**もの長さを、普通の CPU でも、最新の GPU でも、1 回で処理できました

    • 比喩: 従来の AI は「図書館の本を 1 冊ずつ全部読みながら要約する」ので、図書館が広すぎると倒れてしまいます。RACE は「本棚の目録(要約)だけ見て、必要なページだけ探す」ので、図書館が宇宙の広さになっても動けます。
  • 精度も劣らない:
    「グループ分け」をしているので、精度が落ちるのではないか?と心配されますが、実験では**「従来の AI と同じか、それ以上の精度」**を維持していました。

4. まとめ:何が変化したのか?

この論文は、**「AI が長い物語や長い動画を理解する未来」**を現実のものにしました。

  • 以前の常識: 「長い文章を処理するには、もっと強いコンピュータ(GPU)が必要だ」
  • 新しい常識: 「アルゴリズム(計算のやり方)を工夫すれば、普通のコンピュータでも、何千万文字もの長文を瞬時に処理できる」

RACE Attentionは、AI が「長い文脈」を扱うための**「魔法の要約術」**であり、これにより、未来の AI は本 1 冊分、あるいは映画 1 本分を一度に読み込んで、深い理解ができるようになるでしょう。


一言で言うと:
「全員と握手して理解しようとするから疲弊する。代わりに『似ている人グループのまとめ帳』だけを見て理解すれば、超長文でも一瞬で、かつ正確に処理できる!」という画期的なアイデアです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →