Score-Regularized Joint Sampling with Importance Weights for Flow Matching

この論文は、フローマッチングモデルからの期待値推定における高分散問題を解決するため、スコア正則化による多様性確保と、残差速度場に基づく重要度重み付けを組み合わせた非独立同分布サンプリング手法を提案し、高品質な多様なサンプルと正確な推定値の両立を実現するものです。

Xinshuang Liu, Runfa Blark Li, Shaoxiu Wei + 1 more2026-03-02🤖 cs.AI

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

本論文は、限られた脳 MRI 画像データを用いた腫瘍分類タスクにおいて、医療ドメインで事前学習された RadImageNet DenseNet121 よりも、大規模な汎用データセットで事前学習された最新の一般目的 CNN(特に ConvNeXt-Tiny)の方が高い性能を発揮することを示しています。

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

本論文は、生成動画の評価において視覚的・動的・テキスト整合性の 3 次元を統合的に定義し、約 1 万件のアノテーション付きデータセットと、Chain-of-Thought による段階的学習を採用した統一評価モデル「Q-Save」を提案し、高精度な品質予測と解釈可能な理由付けを両立させることを示しています。

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

本研究は、700 万件のデータセットと段階的なトレーニングパイプライン(模倣学習と新たに提案されたフローベース強化学習 SAFE-GRPO)を活用し、社会的規範を理解して人間のような行動を生成する基盤モデル「SocialNav」を開発し、既存の最良手法と比較して成功率と社会的適合性を大幅に向上させたことを報告しています。

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

本論文は、冗長なマルチモーダルコンテキストによる効率性のボトルネックを解消するため、軽量ドラフトモデルと強力なターゲットモデルの協調により時間的知覚と推論を分離する強化学習ベースの「SpecTemp」フレームワークと、それに対応するデータセットを提案し、長動画理解における推論速度の大幅な向上と精度の維持を実現したことを報告しています。

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

本論文は、放射線被曝制限や撮影プロトコルの不一致により生じる造影 CT の時間相欠損問題を解決するため、時間不変の解剖学情報と時間依存の血流動態情報を分離・復元する物理学的知見に基づく「TARDis」と呼ばれる新しい深層学習フレームワークを提案し、大規模データセットにおいて既存手法を大幅に上回る腫瘍セグメンテーションおよび分類性能を実証したものである。

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

本論文は、地図の凡例やスケール、方位、幾何学的情報を統合して多段階の推論を行う「地図的推論」能力を評価するため、GIS 文献に基づいた空間関係(位相的、計量的、方向的)を網羅し、現状の最先端 Vision-Language モデルが人間に比べて著しく低い性能しか示さないことを明らかにした新たなベンチマーク「FRIEDA」を提案するものです。

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

この論文は、単一の画像から 1 秒未満でメトリックな 3D ガウス表現を推定し、リアルタイムで高解像度のフォトリアリスティックな近傍ビューを合成する新手法「SHARP」を提案し、既存の最良モデルと比較して合成時間を 3 桁短縮するとともに画質指標(LPIPS、DISTS)を大幅に改善したことを報告しています。

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

本論文は、イベントカメラの微細な時間情報を活用し、幾何学と放射輝度のレンダリングを分離する新しいアプローチを提案することで、事前情報や COLMAP 初期化を必要とせず、高精度かつ高速なイベントベースの 3D ガウススプラッティングを実現する手法を提示しています。

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

本論文は、視覚言語モデルの推論能力を連続制御に効率的に統合し、遅延を削減しながら安全かつ高精度な軌道計画を実現する新たなフレームワーク「ColaVLA」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

本論文は、潜在世界モデル(VJEPA-2)の物理的事前知識を報酬として利用し、推論時に複数の生成軌道を探索・誘導する「WMReward」を導入することで、動画生成モデルの物理法則への整合性を大幅に向上させ、ICCV 2025 の物理推論チャレンジで優勝を果たした手法を提案しています。

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

本論文は、多変量時系列予測においてチャネル順序に依存しない構造をデータから学習し、チャネルの追加や順序変更、未見チャネルへの適応を可能にする「CPiRi」という新しいフレームワークを提案し、理論的裏付けと複数のベンチマークでの最先端性能を実証しています。

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

本論文は、自然画像の輪郭と人工的なラップ不連続性を区別し、高ダイナミックレンジのモジュロ画像を高精度に復元するために、露光変化に対するスケール共変正則化と、生モジュロ画像・包み込み差分・閉形式初期化を統合した特徴量リフティングを導入した学習ベースの復元フレームワークを提案するものである。

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Erase at the Core: Representation Unlearning for Machine Unlearning

この論文は、既存の機械的忘却手法が抱える「表面的な忘却(ロジットレベルでの忘却は達成されるが内部特徴表現は残存する)」という課題を解決するため、ネットワークの全階層にわたって忘却を強制するプラグイン型フレームワーク「Erase at the Core (EC)」を提案し、中間層における表現の類似性を大幅に低減しつつ保持データでの性能を維持することを示しています。

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

本論文は、従来のトレーニング不要アプローチが抱える計算コストの課題を解決し、パッチベースの推論を低ステップ数で実行可能にする「PixelRush」を提案することで、4K 画像を約 20 秒で生成する超高速かつ高品質なテキスト画像生成フレームワークを実現したことを報告しています。

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs