Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

本論文は、冗長なマルチモーダルコンテキストによる効率性のボトルネックを解消するため、軽量ドラフトモデルと強力なターゲットモデルの協調により時間的知覚と推論を分離する強化学習ベースの「SpecTemp」フレームワークと、それに対応するデータセットを提案し、長動画理解における推論速度の大幅な向上と精度の維持を実現したことを報告しています。

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

本論文は、放射線被曝制限や撮影プロトコルの不一致により生じる造影 CT の時間相欠損問題を解決するため、時間不変の解剖学情報と時間依存の血流動態情報を分離・復元する物理学的知見に基づく「TARDis」と呼ばれる新しい深層学習フレームワークを提案し、大規模データセットにおいて既存手法を大幅に上回る腫瘍セグメンテーションおよび分類性能を実証したものである。

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

本論文は、地図の凡例やスケール、方位、幾何学的情報を統合して多段階の推論を行う「地図的推論」能力を評価するため、GIS 文献に基づいた空間関係(位相的、計量的、方向的)を網羅し、現状の最先端 Vision-Language モデルが人間に比べて著しく低い性能しか示さないことを明らかにした新たなベンチマーク「FRIEDA」を提案するものです。

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

この論文は、単一の画像から 1 秒未満でメトリックな 3D ガウス表現を推定し、リアルタイムで高解像度のフォトリアリスティックな近傍ビューを合成する新手法「SHARP」を提案し、既存の最良モデルと比較して合成時間を 3 桁短縮するとともに画質指標(LPIPS、DISTS)を大幅に改善したことを報告しています。

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

本論文は、イベントカメラの微細な時間情報を活用し、幾何学と放射輝度のレンダリングを分離する新しいアプローチを提案することで、事前情報や COLMAP 初期化を必要とせず、高精度かつ高速なイベントベースの 3D ガウススプラッティングを実現する手法を提示しています。

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

本論文は、視覚言語モデルの推論能力を連続制御に効率的に統合し、遅延を削減しながら安全かつ高精度な軌道計画を実現する新たなフレームワーク「ColaVLA」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

本論文は、潜在世界モデル(VJEPA-2)の物理的事前知識を報酬として利用し、推論時に複数の生成軌道を探索・誘導する「WMReward」を導入することで、動画生成モデルの物理法則への整合性を大幅に向上させ、ICCV 2025 の物理推論チャレンジで優勝を果たした手法を提案しています。

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

本論文は、多変量時系列予測においてチャネル順序に依存しない構造をデータから学習し、チャネルの追加や順序変更、未見チャネルへの適応を可能にする「CPiRi」という新しいフレームワークを提案し、理論的裏付けと複数のベンチマークでの最先端性能を実証しています。

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

本論文は、自然画像の輪郭と人工的なラップ不連続性を区別し、高ダイナミックレンジのモジュロ画像を高精度に復元するために、露光変化に対するスケール共変正則化と、生モジュロ画像・包み込み差分・閉形式初期化を統合した特徴量リフティングを導入した学習ベースの復元フレームワークを提案するものである。

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Erase at the Core: Representation Unlearning for Machine Unlearning

この論文は、既存の機械的忘却手法が抱える「表面的な忘却(ロジットレベルでの忘却は達成されるが内部特徴表現は残存する)」という課題を解決するため、ネットワークの全階層にわたって忘却を強制するプラグイン型フレームワーク「Erase at the Core (EC)」を提案し、中間層における表現の類似性を大幅に低減しつつ保持データでの性能を維持することを示しています。

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

本論文は、従来のトレーニング不要アプローチが抱える計算コストの課題を解決し、パッチベースの推論を低ステップ数で実行可能にする「PixelRush」を提案することで、4K 画像を約 20 秒で生成する超高速かつ高品質なテキスト画像生成フレームワークを実現したことを報告しています。

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

One2Scene は、単一画像から没入型の探索可能な 3D 空間を生成するために、パノラマ生成、3D 幾何学的足場へのアップリフト、および新規視点生成という 3 つの段階的なタスクに問題を分解し、大規模なマルチビューデータセットで学習された幾何学的事前知識を活用して、既存の手法が抱える幾何学的歪みやノイズを克服する革新的なフレームワークです。

Pengfei Wang, Liyi Chen, Zhiyuan Ma + 3 more2026-03-02💻 cs

Test-Time Training with KV Binding Is Secretly Linear Attention

本論文は、テスト時トレーニング(TTT)における KV バインディングが単なる記憶メカニズムではなく、学習された線形アテンション演算子として再解釈できることを示し、これによりモデルの挙動を説明するだけでなく、アーキテクチャの簡素化や並列化による効率化を実現することを提案しています。

Junchen Liu, Sven Elflein, Or Litany + 2 more2026-03-02🤖 cs.AI