CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本論文は、臨床現場で頻繁に発生する MRI 画像モダリティの欠損問題に対処し、任意のモダリティ組み合わせに対して頑健かつ高精度な脳腫瘍セグメンテーションを実現するため、階層的モダリティ自己蒸留と段階的モダリティ組み合わせ蒸留を組み合わせた新しいクロスモーダル構成自己蒸留(CCSD)フレームワークを提案し、公開ベンチマークにおいて最先端の性能を達成したことを報告しています。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

本論文は、マルチモーダル大規模言語モデルの推論オーバーヘッドを削減するため、周波数領域におけるエネルギー分布と外れ値 KV を考慮し、既存の効率的なアテンションカーネルと互換性のある新しい KV キャッシュ圧縮フレームワーク「FlashCache」を提案し、高いメモリ効率と高速なデコーディングを実現するものである。

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

本論文は、長距離依存関係のモデル化と線形計算量を実現する状態空間モデル「Mamba」の課題を克服し、対角マスク双方向状態空間モジュールとグローバル特徴融合ヘッドを導入したエンドツーエンドのワンステージ検出器「MambaTAD」を提案し、複数のベンチマークで優れた時間的動作検出性能を達成したことを示しています。

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

この論文は、腕に搭載されたカメラを移動させて最適な視点を確保し、3D ガウススプラッティングを用いて視覚的観測を最適化する「Observer-Actor」フレームワークを提案し、これによりロボットアームの模倣学習における成功率を大幅に向上させることを実証しています。

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

本論文は、単眼動画から高品質でアニメーション可能な 3D ヘッドアバターを再構築する STAvatar を提案し、UV 適応型ソフトバインディングと時間的密度制御戦略を通じて、既存手法の剛性や表現力の限界、および頻繁に隠れる領域の再現課題を解決し、最先端の性能を達成することを示しています。

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

本論文は、従来の frontal 視野の制約を克服し、19 名のドライバーから収集した約 100 万フレームの 360 度データセット「DriverGaze360」と、セマンティックセグメンテーションを補助タスクとして取り入れた「DriverGaze360-Net」を提案し、広視野環境におけるドライバーの注視予測性能を大幅に向上させたことを報告しています。

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

本論文は、人間の認知科学に基づき視覚情報を動的に取得しながら論理的な思考単位(CRU)に分解する「ViRC」フレームワークと、これに対応する CRUX データセットおよび段階的な学習戦略を提案し、マルチモーダル数学推論タスクにおいて基盤モデルを大幅に上回る性能を達成したことを示しています。

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

本論文では、解剖学的入力から線量事前分布を予測し、ビーム幾何学情報に基づいて物理的に較正された強度変調放射線治療のフラウンシーマップを直接回帰するトランスフォーマー駆動のフレームワーク「FluenceFormer」を提案し、物理情報に基づく損失関数と多様なトランスフォーマーバックボーンを用いた評価により、既存の手法を上回る高精度な計画生成を実現したことを示しています。

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

本論文は、大規模な物理法則対応動画データセット「PhyVidGen-135K」の構築と、物理的整合性を保証する新しい最適化フレームワーク「PhyGDPO」を提案し、テキストから物理的に整合性の高い動画を生成する性能を大幅に向上させたことを示しています。

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs