TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

本文提出了 HCF-RES 框架,通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制,解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题,并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

该论文针对真实世界中 3D 语义占据预测面临的标注噪声问题,首次建立了 OccNL 基准并揭示了现有 2D 去噪策略在稀疏 3D 空间中的失效,进而提出了基于双源部分标签推理的 DPR-Occ 框架,在极端噪声下显著提升了感知鲁棒性。

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

该论文提出了 LTA(潜在空间转移攻击),一种通过在预训练 Stable Diffusion 的潜在空间中优化扰动并结合期望变换(EOT)与高斯平滑策略的方法,从而生成具有强迁移性、空间连贯且低频特性的对抗样本,有效克服了传统像素空间攻击在预处理鲁棒性和跨架构迁移方面的局限。

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

本文提出了一种名为 WMoE-CLIP 的零样本异常检测方法,通过结合变分自编码器建模全局语义、小波分解提取多频特征以及语义感知的混合专家模块,有效克服了现有方法在提示词固定和仅依赖空间域特征方面的局限,显著提升了在工业和医疗场景下对未见异常及细微异常的检测能力。

Peng Chen, Chao Huang2026-03-09💻 cs

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

该论文提出了 WorldCache 框架,通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制,有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题,在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs