Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding
本論文は、冗長なマルチモーダルコンテキストによる効率性のボトルネックを解消するため、軽量ドラフトモデルと強力なターゲットモデルの協調により時間的知覚と推論を分離する強化学習ベースの「SpecTemp」フレームワークと、それに対応するデータセットを提案し、長動画理解における推論速度の大幅な向上と精度の維持を実現したことを報告しています。