Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本文提出了 QuantSparse 框架,通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制,有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题,在显著降低存储与推理成本的同时大幅提升了生成质量。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

本文提出了一种基于超宽带(UWB)和雷达技术的多机器人(UGV-UAV)相对定位系统,该系统融合惯性测量单元与轮式编码器数据,通过非线性优化与姿态图优化框架实现了比现有闭式方法更鲁棒的定位性能,并已在 ROS 2 环境中通过仿真与真实数据集验证,且代码与数据已开源。

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs