GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本文提出了 GenHOI,一种针对预训练视频生成模型的轻量级增强方法,通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性,从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题,提出了名为 Curious-VLA 的两阶段框架,通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索,从而在 Navsim 基准测试中取得了当前最优的性能表现。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

该论文通过构建反事实图像集并训练线性探针,分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制,揭示了感知失败(概念未线性编码)与认知失败(概念存在但语义对齐错误)两种主要故障模式,并发现物体距离增加会显著降低视觉概念的可分性。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

针对现有联邦域泛化行人重识别方法因依赖全局特征和简单平均聚合而导致的局部细节捕捉不足及高质量客户端贡献被稀释的问题,本文提出了 FedARKS 框架,通过鲁棒知识提取与知识选择机制实现更有效的模型聚合,从而在保护隐私的同时提升模型在未见域上的泛化能力。

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架,通过利用对数信噪比映射和预测噪声重注入机制,有效弥合了跨分辨率分布差异,从而在保持高视觉保真度的同时,显著加速了扩散模型的推理过程(如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速)。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

该论文提出了一种名为虚拟治疗(VT)的多模态生成框架,通过结合 CT 影像、临床变量及辐射剂量增量来模拟非小细胞肺癌(NSCLC)在放疗期间的纵向演变,并验证了基于扩散模型的方案在生成解剖学上更合理且稳定的肿瘤演化轨迹方面优于 GAN 基线,从而为 NSCLC 的虚拟治疗监测和自适应放疗研究提供了有力工具。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

该论文提出了一种无需训练伪标签生成与标签精化的半监督框架,通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签,并结合不确定性加权融合与反向对比学习,在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

本文提出了 JOPP-3D 框架,通过联合利用全景图像与点云数据并转换对齐基础视觉 - 语言特征,实现了在数据稀缺场景下基于自然语言查询的 3D 点云与全景图像开放词汇语义分割,并在多个数据集上显著超越了现有最先进方法。

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs