Pursuing Minimal Sufficiency in Spatial Reasoning

本論文は、2D 中心の事前学習に起因する 3D 理解の不足と冗長な情報による推論失敗という課題を解決するため、専門モデルからの 3D 知覚結果を最小かつ十分な情報集合(MSS)として選択的に抽出・洗練する双エージェントフレームワーク「MSSR」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

本論文は、3D 大規模言語モデルの接地された推論能力を向上させるため、マルチモーダル専門モジュールを用いた視覚的手がかりに基づく「SceneCOT」という新しい推論フレームワークと、18.5 万件の高品質な事例からなる大規模データセット「SCENECOT-185K」を提案し、複雑な 3D シーン理解において人間のような段階的推論を可能にすることを示しています。

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

本論文は、大規模マルチモーダルモデルによる長動画理解における視覚トークンの膨大さを解決するため、施設場所関数と遅延貪欲法を用いてトレーニング不要かつモデル非依存で効率的に代表的なトークンを選択する新しい圧縮フレームワーク「FLoC」を提案し、主要なベンチマークで既存手法を上回る性能を示したことを報告しています。

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

本論文は、筋電図(sEMG)に基づくジェスチャー認識におけるデータ不足と過学習の問題を解決するため、意味的ガイダンスとスパース性意識サンプリングを組み合わせた拡散モデルベースのデータ拡張手法「SASG-DA」を提案し、既存手法を上回る汎化性能と認識精度の実現を報告するものです。

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

本論文は、DeiT を基盤とし、標準的なデータ拡張から高度な拡張へと段階的に進化する二段階学習戦略を採用した深層偽造検出モデル「DeiTFake」を提案し、OpenForensics データセットにおいて 99.22% の精度と 0.9997 の AUROC を達成して既存のベースラインを上回る性能を示したことを報告しています。

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本論文は、臨床現場で頻繁に発生する MRI 画像モダリティの欠損問題に対処し、任意のモダリティ組み合わせに対して頑健かつ高精度な脳腫瘍セグメンテーションを実現するため、階層的モダリティ自己蒸留と段階的モダリティ組み合わせ蒸留を組み合わせた新しいクロスモーダル構成自己蒸留(CCSD)フレームワークを提案し、公開ベンチマークにおいて最先端の性能を達成したことを報告しています。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

本論文は、マルチモーダル大規模言語モデルの推論オーバーヘッドを削減するため、周波数領域におけるエネルギー分布と外れ値 KV を考慮し、既存の効率的なアテンションカーネルと互換性のある新しい KV キャッシュ圧縮フレームワーク「FlashCache」を提案し、高いメモリ効率と高速なデコーディングを実現するものである。

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

本論文は、長距離依存関係のモデル化と線形計算量を実現する状態空間モデル「Mamba」の課題を克服し、対角マスク双方向状態空間モジュールとグローバル特徴融合ヘッドを導入したエンドツーエンドのワンステージ検出器「MambaTAD」を提案し、複数のベンチマークで優れた時間的動作検出性能を達成したことを示しています。

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

この論文は、腕に搭載されたカメラを移動させて最適な視点を確保し、3D ガウススプラッティングを用いて視覚的観測を最適化する「Observer-Actor」フレームワークを提案し、これによりロボットアームの模倣学習における成功率を大幅に向上させることを実証しています。

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

本論文は、単眼動画から高品質でアニメーション可能な 3D ヘッドアバターを再構築する STAvatar を提案し、UV 適応型ソフトバインディングと時間的密度制御戦略を通じて、既存手法の剛性や表現力の限界、および頻繁に隠れる領域の再現課題を解決し、最先端の性能を達成することを示しています。

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs