Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

本文提出了一种基于超宽带(UWB)和雷达技术的多机器人(UGV-UAV)相对定位系统,该系统融合惯性测量单元与轮式编码器数据,通过非线性优化与姿态图优化框架实现了比现有闭式方法更鲁棒的定位性能,并已在 ROS 2 环境中通过仿真与真实数据集验证,且代码与数据已开源。

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

本文提出了一种偏好条件多目标强化学习框架,通过平衡指令跟踪与外力顺应性,使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换,并在仿真与真实硬件实验中验证了其稳定性与部署可行性。

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs