LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

本文提出了一种名为 LEL 的 Lipschitz 连续性约束集成学习框架,通过在该框架的 Transformer 注意力机制等模块中施加 Lipschitz 约束并结合可学习的集成融合策略,有效解决了现有脑电情感识别方法在稳定性、高维非线性信号处理及抗噪性方面的不足,并在多个公开数据集上实现了优越的识别精度。

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

本文提出了首个用于稀疏视图 CBCT 重建的基础模型 DeepSparse,通过引入融合多视角 2D 与多尺度 3D 特征的 DiCE 网络架构,以及结合混合视角采样预训练和两阶段微调的 HyViP 框架,有效解决了现有方法计算需求高和泛化能力差的问题,显著提升了重建质量并降低了辐射风险。

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft 是首个直接利用原始 3D 运动序列(4D 运动)进行角色图像动画生成的框架,通过 4D 运动分词器(4DMoT)和运动感知视频 DiT(MV-DiT)将运动量化为紧凑的 4D 令牌,从而在实现任意角色及物体零样本泛化动画的同时,显著提升了姿态引导视频生成的性能与灵活性。

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Vid2World: Crafting Video Diffusion Models to Interactive World Models

本文提出了 Vid2World 框架,通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制,成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型,从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

该论文提出了名为 LINO UniPS 的通用光度立体方法,通过引入光注册令牌与交错注意力机制实现光照与法线的有效解耦,结合小波双分支架构与法线梯度感知损失以保留高频几何细节,并借助大规模合成数据集 PS-Verse 及课程训练策略,在多个基准测试中取得了新的最先进性能。

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

本文提出了一种由视觉语言模型(VLM)引导的级联框架,通过利用 VLM 特征作为提示来指导 Segment Anything Model 进行精准分割,并将分割结果作为软空间先验保留全图上下文以消除域差距,从而有效解决了开放词汇伪装物体分割中的视觉模糊与未见类别分类难题。

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

该论文提出了一种名为查询自适应聚合(QAA)的新型特征聚合技术,通过利用学习到的查询作为参考码本,有效解决了多数据集联合训练中因数据差异导致的特征聚合容量受限问题,从而实现了在保持高性能的同时显著提升视觉地点识别模型在多样化数据集上的泛化能力。

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs