Ego-Vision World Model for Humanoid Contact Planning

该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述,总结了其在缺乏标注数据场景下的潜力,并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

本文针对多模态大语言模型(MLLMs)在文本 - 视觉场景下的安全漏洞,提出了名为 PolyJailbreak 的新型黑盒越狱框架,该框架利用“多模态安全不对称”现象,通过原子策略原语库和强化学习多智能体优化,在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击,显著超越了现有最先进方法。

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

本文提出了 LagMemo,一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统,通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航,并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

本文提出了名为 MobiDock 的模块化自重构双臂移动机器人系统,该系统通过基于视觉的自主对接和螺纹锁紧机制将两个独立机器人物理连接为统一平台,从而将复杂的多机器人协同控制简化为单系统管理,显著提升了动态稳定性、操作精度及任务执行效率。

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs