Reallocating Attention Across Layers to Reduce Multimodal Hallucination

该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

本文提出了一种偏好条件多目标强化学习框架,通过平衡指令跟踪与外力顺应性,使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换,并在仿真与真实硬件实验中验证了其稳定性与部署可行性。

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述,总结了其在缺乏标注数据场景下的潜力,并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

本文针对多模态大语言模型(MLLMs)在文本 - 视觉场景下的安全漏洞,提出了名为 PolyJailbreak 的新型黑盒越狱框架,该框架利用“多模态安全不对称”现象,通过原子策略原语库和强化学习多智能体优化,在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击,显著超越了现有最先进方法。

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs