TRecViT: A Recurrent Video Transformer

この論文は、時・空間・チャネルの各次元をそれぞれ専用ブロック(L RU、自己注意、MLP)で処理する因果的な時空間チャネル分解ブロックを提案し、非因果モデルである ViViT-L と同等以上の性能を維持しつつ、パラメータ数や計算コストを大幅に削減した新しい因果動画モデル「TRecViT」を提示しています。

Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu

公開日 2026-02-17
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「TRecViT(トリークヴィット)」**という新しい AI 動画理解モデルについて書かれています。

これを一言で言うと、**「動画を見るのが非常に速く、メモリもほとんど使わず、しかも『未来』を見ずに『現在』までしか見ない(因果的な)賢いカメラ」**を作ったという話です。

難しい専門用語を使わず、日常の例えを使って説明しますね。

1. 従来の AI の問題点:「全部見てから考える」

これまでの高性能な動画 AI(ViViT など)は、動画を見る際、**「最初から最後まで全部のフレームを一度に並べて、すべてを同時に眺めてから理解する」**というやり方をしていました。

  • 例え話:
    映画館で映画を見る際、スクリーンに映る映像を「最初から最後まで 1 回分全部」を一度に広げて、その中から重要なシーンを探し出すようなものです。
    • メリット: 全体像を把握しやすい。
    • デメリット: 映画が長くなると、広げるスペース(メモリ)が爆発的に増え、処理も遅くなります。また、「未来のシーン」も見てしまっているので、リアルタイムで流れてくる映像(ロボットや AR 向け)には向きません。

2. TRecViT のアイデア:「時間・空間・色」を分けて考える

TRecViT は、動画の情報を 3 つの異なる「箱」に分けて処理する、という新しいアプローチをとっています。これを**「時・空・色の分解」**と呼んでいます。

  • 時間(Time)の箱: 「どう動くか?」
    • 担当: **LRU( gated linear recurrent units)**という仕組み。
    • 役割: 過去の情報を「記憶」しながら、新しい情報を「足していく」作業です。
    • 例え話: これは**「流れる川」**のようなものです。川は上流(過去)から下流(現在)へ水が流れますが、下流の水は上流の水をすべて一度に持ち歩く必要はありません。必要な情報だけを選んで、川の流れ(状態)に混ぜて運んでいきます。これにより、動画が何時間続いても、必要なメモリは一定のままです。
  • 空間(Space)の箱: 「何が写っているか?」
    • 担当: 自己注意機構(Self-Attention)
    • 役割: 1 枚の画像の中で、どの部分とどの部分が関係しているかを見る作業です。
    • 例え話: これは**「パズル」**です。1 枚の絵の中で、空と雲、木と鳥がどう繋がっているかを、パズルのピース同士を同時に見比べながら理解します。
  • 色・特徴(Channel)の箱: 「どんな色や質感か?」
    • 担当: MLP(多層パーセプトロン)
    • 役割: 上記の情報をまとめて、最終的な意味を解釈します。

3. なぜこれがすごいのか?

この「川(時間)」と「パズル(空間)」を交互に使うことで、以下のような劇的なメリットが生まれます。

  • 🚀 超高速・超軽量:
    従来の AI が「未来の映像」まで含めて全部計算していたのに対し、TRecViT は「今までの流れ」だけを覚えていればいいので、計算量が 5 倍、メモリ使用量は 12 倍も減りました。
    • 例え話: 重い荷物を全部背負って歩くのではなく、必要なものだけを持って、軽やかに走れるようになります。これにより、1 秒間に 300 枚もの画像を処理でき、リアルタイムで動くロボットや AR 眼鏡でも余裕で動きます。
  • 🎯 未来を見ない(因果的):
    動画が流れている最中に「未来の出来事」を知っているのは不自然です。TRecViT は「過去と現在」しか見ていないので、リアルタイムな処理(ロボットが障害物を避けるなど)に最適です。
  • 🏆 性能も最高クラス:
    軽いだけでなく、性能も負けていません。有名な動画認識データセット(SSv2 や Kinetics400)で、パラメータ数が 3 分の 1 しかないのに、従来の最高性能モデル(ViViT-L)と同等か、それ以上の結果を出しました。

4. 具体的な成果

  • 動画分類: 「人が何をしているか」を識別するタスクで、世界最高レベルの精度を出しました。
  • ポイント追跡: 動画の中で特定の点(例えばボールや人の目)がどう動くかを追うタスクでも、他を凌駕する性能を発揮しました。
  • 長い動画の記憶: 従来の AI は動画が長くなると記憶がぼやけてしまいますが、TRecViT は長い動画でも、過去にさかのぼって重要な情報を思い出す能力が高いことが分かりました。

まとめ

TRecViT は、「動画理解」を「未来を先読みする重い作業」から、「過去の流れを軽やかに受け継ぐ作業」へと変えた画期的なモデルです。

これにより、将来的には、**「リアルタイムで状況を理解して行動するロボット」や、「メガネ型デバイスで瞬時に周囲を分析する AR」**などが、より現実的なものになることが期待されています。まるで、AI が「動画を見る」のではなく、「動画の流れに溶け込んで理解する」ようになったような感覚です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →