LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

本論文は、トランスフォーマーの注意機構やスペクトル抽出などのモジュールにリプシッツ連続性制約を課し、学習可能なアンサンブル融合戦略を組み合わせることで、脳波に基づく感情認識の安定性、精度、およびロバスト性を向上させる新しいフレームワーク「LEL」を提案し、複数のベンチマークデータセットで優れた性能を実証したものである。

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

本論文は、哺乳類の空間認知に着想を得て、直交制約付き変分情報ボトルネック(O-VIB)エンコーダを導入し、冗長な特徴を剪除することで帯域幅制約の厳しい都市環境における高精度な視覚的局所化を実現するタスク指向のセマンティック圧縮フレームワークを提案するものである。

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

本論文は、低線量かつ高品質な CBCT 画像再構成を実現するため、多視点・多スケール特徴を統合した DiCE ネットワークと大規模データを用いた HyViP 事前学習フレームワークを備えた、初の CBCT 用基盤モデル「DeepSparse」を提案し、既存手法を上回る性能を実証したものである。

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

本論文は、単車および複数車両の協調自律走行研究を促進するために、204 シーケンス・3 万フレームのマルチモーダルデータを含む包括的なベンチマーク「M3CAD」を提案し、ネットワーク帯域制約を考慮した適応的融合手法による新たな基線性能を確立したことを報告しています。

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

本論文は、キーポイント駆動のアセット合成と KG-DAgger による失敗回復用デモンストレーション生成を活用し、15 万の軌跡を用いた閉ループ模倣学習によって、実世界で 75% の成功率を達成する汎用的な衣類折り畳みロボット制御ポリシーを提案する。

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

本論文は、従来の 2D ポーズ画像に依存せず、3D 運動シーケンスを直接モデル化する「4DMoT」と「MV-DiT」を導入した MTVCraft を提案し、任意のキャラクターや非人間オブジェクトに対する高精度かつ汎用性の高いゼロショット動画生成を実現したことを報告しています。

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

この論文は、未収データや欠落モダリティの問題に対処するため、収束性が保証された最適化アルゴリズムをニューラルネットワークに展開し、メタ学習を統合することで、多コイル・多モダリティ MRI の高速再構成と合成を可能にする統合フレームワークを提案しています。

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

本論文は、大規模インターネットデータで事前学習された動画拡散モデルを、アーキテクチャと学習目的の再設計、および因果的な動作ガイダンスの導入を通じて、ロボット操作やゲームシミュレーションなど多様な領域で高忠実度な未来予測を可能にするインタラクティブな世界モデルへと転用する「Vid2World」という手法を提案しています。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

この論文は、事前学習された 3 次元生成事前知識と境界積分方程式ソルバーを結合した「ソルバー内ループ」フレームワークを提案し、物理法則を厳密に満たしつつデータ駆動型正則化により、電気インピーダンストモグラフィ(EIT)における複雑な 3 次元界面の高精度かつ効率的な再構築を実現するものである。

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本論文は、視覚と触覚のモダリティを効果的に融合し、タスクに依存しない汎用的な表現学習とゼロショット一般化を実現するために、局所および大域の位置符号化を段階的に注入するトランスフォーマーベースのアーキテクチャ「ViTaPEs」を提案し、実世界データセットおよびロボティクスタスクにおいて最先端の性能を示すことを報告しています。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

この論文は、農業分野における密集・自己遮蔽物体のインスタンスセグメンテーション課題を解決するため、最小限の人手注釈で形状やテクスチャに焦点を当てた「GLMask」を用いた半自己教師あり学習アプローチを提案し、小麦の穂の検出で mAP@50 98.5% の最高精度を達成したことを報告しています。

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

本論文は、ピラミッド型 pix2pix の損失関数に分散ペナルティを導入してモード崩壊を抑制し、H&E 染色画像から高忠実度の HER2 免疫組織化学画像を生成する深層学習フレームワークを提案することで、乳がん診断の精度向上とコスト削減を実現するものである。

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

本論文は、照明と法線ベクトルを明確に分離する「Light Register トークン」や「Wavelet 基盤の双枝アーキテクチャ」を提案し、大規模合成データセット「PS-Verse」を用いたカリキュラム学習を通じて、任意の照明条件下で高精度かつ汎用的なフォトメトリックステレオを実現する「LINO UniPS」を構築したものである。

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

本論文は、視覚言語モデル(VLM)から得られる特徴を明示的なプロンプトとしてセグメンテーションモデル(SAM)に活用し、さらに分類段階でドメインギャップを回避する「ソフトな空間事前分布」を導入するカスケード型フレームワークを提案することで、任意のクラスの擬態物体を高精度にセグメント化・分類するオープンボキャブラリ擬態物体セグメンテーション(OVCOS)の課題を解決するものです。

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

本論文は、複数のデータセットをまたぐ汎用的な視覚的場所認識を実現するため、学習されたクエリを参照コードブックとして活用し、計算コストを大幅に増やさずに特徴集約の能力を向上させる「クエリベース適応集約(QAA)」を提案し、既存の単一データセット特化モデルと同等の性能を維持しながら多様なデータセット間でのバランスの取れた汎化性能を達成することを示しています。

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本論文は、センサー故障やプライバシー保護により生じる不完全なマルチモーダルデータの問題に対処するため、モダリティ組合せごとの共有情報と固有特徴を分離し、表現空間の分離性に基づいて動的に学習比率を調整する新しいパラメータ効率型学習フレームワーク「MCULoRA」を提案し、感情認識タスクにおいて既存手法を上回る性能を達成したことを示しています。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs