Each language version is independently generated for its own context, not a direct translation.

INFOTOK：動画の「賢い圧縮」を実現する新技術

～「必要なところだけ詳しく、不要なところはさらっと」～

この論文は、**「INFOTOK（インフォトーク）」という新しい技術を紹介しています。これは、動画をデジタルデータ（トークン）に変換する際、「動画の内容の複雑さに合わせて、データの量（トークンの数）を自動で調整する」**という画期的な方法です。

従来の技術は「どんな動画でも、1 秒間に必ず同じ枚数の写真（フレーム）を切り取る」ような固定されたルールでしたが、INFOTOK は「静かな風景なら枚数を減らし、激しいアクションなら枚数を増やす」という賢い圧縮を実現します。

🎬 従来の方法 vs. INFOTOK：どんな違いがあるの？

1. 従来の方法：「均一なスライス」

従来の動画圧縮技術は、**「すべての動画に同じサイズのパンチ穴を開ける」**ようなものでした。

例： 1 秒間の動画を処理する場合、どんな動画でも「100 枚のカード」に分けて保存します。
問題点：
- 静かな風景（犬が寝ている動画など）： 100 枚も必要ありません。無駄なカード（データ）が大量に生まれます。
- 激しいアクション（格闘技や爆発の動画）： 100 枚では情報が足りず、動きがカクカクしてしまいます。
- 結果： データ量が膨大になったり、画質が落ちたりする「非効率さ」がありました。

2. INFOTOK の方法：「賢いダイナミック圧縮」

INFOTOK は、**「動画の『情報の密度』を測るセンサー」**を持っています。

仕組み：
- 静かな場面（情報の密度が低い）： 「ここはあまり動きがないから、カードを 30 枚に減らして OK！」と判断し、データを圧縮します。
- 激しい場面（情報の密度が高い）： 「ここは動きが激しいから、60 枚使って詳しく記録しよう！」と判断し、データを確保します。
結果： 全体のデータ量は大幅に減りつつ、重要な部分は鮮明に残ります。

🧠 どのようにして「賢さ」を実現しているの？

この技術の核心は、**「シャノンの情報理論」**という数学の法則に基づいています。

📊 比喩：「ニュース速報の要約」

想像してください。テレビのニュースを要約して伝えるとします。

A さん（従来の方法）： 「朝の天気は晴れ。昼は晴れ。夜も晴れ。朝は晴れ。昼は晴れ…」と、同じ言葉を繰り返して伝えます。無駄だらけです。
B さん（INFOTOK）： 「朝は晴れ。昼は晴れ。夜も晴れ。→**『朝から夜までずっと晴れでした』**と一言でまとめます。
- しかし、もし「地震が発生！」という緊急ニュースがあれば、**「地震発生！場所はどこどこ！被害は…」**と、詳しく詳しく伝えます。

INFOTOK は、動画の各部分に対して「ここは B さんのように要約していい部分か、それとも A さんのように詳しく伝える必要がある部分か」を数学的に計算して判断します。

🔍 具体的な仕組み

ルーター（判断役）： 動画の各フレームを見て、「この部分の『情報の複雑さ』はどれくらいか？」を計算します（ELBO という数値を使います）。
アダプティブ・コンプレッサー（圧縮役）： 計算結果に基づき、重要な部分には多くの「トークン（データの単位）」を割り当て、単純な部分は少ないトークンにまとめます。
復元： 再生するときは、この「少ないトークン」から元の動画をきれいに再現します。

🌟 INFOTOK がもたらすメリット

この論文の実験結果によると、INFOTOK は以下のような素晴らしい成果を上げています。

📉 データ量が 20% 削減： 同じ画質を維持しながら、必要なデータ量を 20% 減らすことができました。
🚀 圧縮率が 2.3 倍： 従来の「適応型（柔軟な圧縮）」技術と比べて、2.3 倍も効率的に圧縮できました。
⚡ 処理が高速： 従来の技術は「どれくらい圧縮すればいいか」を何度も試行錯誤して決めていましたが、INFOTOK は**「一度の計算」**で最適な量を決めるため、非常に高速です。

💡 まとめ：なぜこれが重要なのか？

これからの AI は、長い動画を理解したり、新しい動画を生成したりする能力が求められています。しかし、動画データは膨大で、AI が処理するには重すぎます。

INFOTOK は、**「無駄なデータは捨てて、重要な情報だけを残す」**という、人間の脳が自然に行っているような処理を AI に実現させました。これにより、AI はより長い動画を、より少ない計算資源で理解・生成できるようになります。

一言で言えば：

「INFOTOK は、動画の『退屈な部分』をさらっとまとめ、『面白い部分』を詳しく記録する、究極の賢い動画圧縮技術です。」

これにより、将来の AI は、よりスムーズに、より高品質な映像世界を扱えるようになるでしょう。

Each language version is independently generated for its own context, not a direct translation.

INFOTOK: 情報理論に基づく適応的離散ビデオトークナイザの技術的サマリー

本論文は、ICLR 2026 にて発表された「INFOTOK: ADAPTIVE DISCRETE VIDEO TOKENIZER VIA INFORMATION-THEORETIC COMPRESSION」に関する技術的サマリーです。この研究は、シャノンの情報理論に着想を得て、ビデオコンテンツの複雑さに応じてトークン数を動的に調整する新しいフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細を記述します。

1. 背景と問題定義

現在のビデオ生成や理解モデル（ビジョン・ファウンデーションモデル）において、ビデオを離散的なトークン列に変換する「トークナイザ」は不可欠です。しかし、既存の手法には以下の重大な課題があります。

固定レート圧縮の非効率性: 既存のほとんどのトークナイザは、すべてのビデオに対して固定された圧縮率（固定長のトークン列）を使用します。
情報の偏り: ビデオはフレーム間やシーン間で情報密度が異なります（例：静止画に近いシーンと激しく動くシーン）。固定レートでは、単純なシーンではトークンが過剰（冗長性）、複雑なシーンでは情報が不足（再構成品質の低下）します。
既存の適応的手法の限界: 最近の適応的トークナイザ（例：ElasticTok）はヒューリスティックな訓練方法や試行錯誤による長さ選択を採用していますが、これらは理論的に最適ではなく、推論時の計算コストが高く、バイアスがかかっていることが証明されています。

核心的な問い: 「理論的に理想的な離散ビデオトークナイザとは何か、またそれをどのように原理的に訓練すべきか？」

2. 提案手法：INFOTOK

INFOTOK は、シャノンの情報理論（特にソース符号化定理）に基づき、ビデオの複雑さ（情報量）に応じてトークン長を動的に決定するフレームワークです。

2.1 理論的基盤

最適長の証明: 既存のデータ非依存（data-agnostic）な訓練方法や固定レート手法は、再構成品質を一定に保つために、理論的に必要なトークン長よりもはるかに長いトークン列を必要とする「偏り（バイアス）」があることを厳密に証明しました。
ELBO の利用: 最適なトークン長は、入力ビデオの負の対数尤度（ $-\log p(x)$ ）に比例します。しかし、真の尤度は計算不可能であるため、変分推論における**証拠下限（ELBO: Evidence Lower Bound）**を代理指標として使用します。

2.2 アーキテクチャ

INFOTOK は、既存の固定長トークナイザ（エンコーダ/デコーダ）を基盤とし、以下の 2 つの主要コンポーネントを追加して適応化を実現します。

情報理論的ルーター（Router）:
- 入力ビデオ $x$ に対して、ELBO を計算し、その値に基づいて必要なトークン数 $N_x$ を決定します。
- 具体的には、 $N_x = \beta \cdot \frac{\text{ELBO}(x)}{\mathbb{E}[\text{ELBO}(x)]}$ として算出します（ $\beta$ は平均圧縮率）。
- これにより、情報量の多い複雑なシーンには多くのトークンを、単純なシーンには少ないトークンを割り当てます。
適応的圧縮器（Adaptive Compressor）:
- 固定長の潜在表現（embeddings）を、ルーターが指定した長さ $N_x$ のトークン列に圧縮します。
- 情報量に基づくトークン選択: 単に先頭から切り捨てるのではなく、各トークンの ELBO 値（情報量）を評価し、**情報量が最も低いトークンをマスク（削除）**します。
- 削除されたトークンの位置情報は、離散トークン列の一部として符号化され、デコーダ側で復元時に利用されます（オーバーヘッドは約 5%）。
- 圧縮・復元には Transformer アーキテクチャを使用し、時空間的な文脈を保持しながら情報を凝縮します。

2.3 訓練と推論

訓練: 再構成損失（MSE や LPIPS など）を最小化しつつ、ELBO ベースのルーターを用いてトークン長を決定します。
推論効率: 既存の適応的手法（ElasticTok など）が損失閾値を満たすためにバイナリサーチを行い、多数のネットワーク評価（NFEs）を必要とするのに対し、INFOTOK は ELBO の計算に 1 回のデコーダパスのみで済み、推論効率が劇的に向上します。

3. 主要な貢献

理論的証明: シャノンの情報理論に基づき、固定レートおよびデータ非依存の適応的圧縮率が本質的に非効率（バイアスがある）であることを厳密に証明しました。
INFOTOK フレームワークの提案: ELBO ベースのルーターと、情報量に基づいたトークン選択を行う Transformer 型適応的圧縮器を組み合わせた、原理的な適応的トークナイザを提案しました。
SOTA 性能の実証: 複数のビデオデータセットにおける実験で、固定長トークナイザと比較して約 20% のトークン削減を、固定長と同等の品質で達成しました。また、既存の適応的手法（ElasticTok）と比較して、2.3 倍の圧縮率を達成しつつ、再構成品質（PSNR, FVD, LPIPS）も上回りました。

4. 実験結果

データセット: TokenBench および DAVIS データセット（256x256 解像度）を使用。
性能比較:
- 圧縮効率: 既存の固定長手法（Cosmos-DV など）に対し、約 20% のトークン削減を実現。
- 適応的手法との比較: ElasticTok と比較し、同じ平均圧縮率（BPP16）で FVD が 40〜60% 改善、PSNR が 1.0〜2.0 向上。逆に、ElasticTok と同等の品質を維持しつつ、圧縮率を 2.3 倍（トークン数を大幅に削減）に設定可能でした。
- 推論効率: ElasticTok は 11 回の追加ネットワーク評価を必要とするのに対し、INFOTOK は 1 回のみで済み、推論レイテンシが大幅に短縮されました。
アブレーション研究:
- ルーターの最適性：ELBO ベースのルーターは、全長を探索する「最適探索戦略」とほぼ同等の性能を示し、ブルートフォース検索なしで最適なトークン長を決定できることを示しました。
- 圧縮器の設計：単純なマスク（右から左、または間引き）ではなく、ELBO 値に基づくマスクが再構成品質を向上させることが確認されました。

5. 意義と将来展望

INFOTOK は、ビデオ表現における「冗長性の排除」と「情報の均等化」を情報理論的に解決した画期的なアプローチです。

長動画処理への貢献: トークン数を削減することで、Transformer アーキテクチャにおける計算コストとメモリ使用量を大幅に抑え、長動画の理解や生成を可能にします。
汎用性: このフレームワークは画像だけでなく、オーディオや 3D データなど、情報密度が不均一な他のモダリティにも適用可能です。
将来のマルチモーダルモデル: 大規模なマルチモーダルモデルや世界モデルの構築において、効率的で高品質なビデオ表現を提供する基盤技術として期待されます。

本論文は、単なるヒューリスティックな改善ではなく、情報理論という堅固な基礎に基づいて適応的トークナイザを再定義し、その有効性を理論と実験の両面から示した点で極めて重要です。

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression