DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

本文提出了 DynamicVGGT,一种将 VGGT 从静态 3D 感知扩展至动态 4D 重建的统一前馈框架,通过联合预测点云、引入运动感知时序注意力机制及动态 3D 高斯泼溅头,实现了自动驾驶场景下鲁棒且高精度的动态场景重建。

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

本文通过大规模人机对比研究,利用最小可识别裁剪(MIRCs)和 Epic ReduAct 数据集,揭示了人类在 egocentric 动作识别中依赖关键语义线索(如手 - 物交互)且对空间缩减敏感,而 AI 模型则更依赖上下文及中低级特征、对时空扰动表现出不同鲁棒性的根本差异。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

该论文提出了一种无需额外标签的通用框架来评估多重实例学习(MIL)热图的质量,并通过大规模基准测试发现扰动法、层相关传播(LRP)和积分梯度(IG)等方法优于传统的注意力热图,从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

本文提出了Δ\DeltaVLA 框架,通过构建先验引导的世界知识提取器(PWKE)、基于 VQ-VAE 的潜在世界变化量化(LWVQ)以及条件变化注意力机制(CV-Atten),将动作生成从预测绝对未来状态转变为建模相对于当前先验的世界知识变化,从而在提升机器人操作性能的同时增强了效率。

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

本文提出了 AULLM++ 框架,通过利用大语言模型进行结构化推理,结合多粒度证据融合、关系感知图神经网络及反事实一致性正则化,有效解决了微表情动作单元检测中视觉信息依赖性强、特征粒度粗糙及动作单元间关联缺失的问题,从而在标准基准和跨域泛化上实现了最先进的性能。

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs