cs.CV 篇论文 | Gist.Science

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

本文提出了 HCF-RES 框架，通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制，解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题，并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

本文提出了名为 NOVA 的新范式，利用大型语言模型的自回归能力将 3D 多目标跟踪重构为生成式时空语义序列预测任务，从而在无需闭集假设的情况下显著提升了对未知目标的泛化跟踪性能。

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架，通过在大模型中引入混合专家（MoE）模块自适应地融合眼动、头部姿态及上下文等多模态线索，并结合类别平衡损失与数据增强策略，有效解决了机器人视线目标估计中的泛化与类别不平衡难题，在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

本文提出了一种名为 ODD-SEC 的实时机载无人机检测系统，该系统利用旋转事件相机实现 360 度全景监测，并通过无需运动补偿的新型事件表示方法与轻量级神经网络，在移动载体上实现了高动态、抗干扰的精准检测与方位估计。

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

本文提出了 HiPP-Prune 框架，通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略，利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

本文提出了 StrSR，一种通过引入非对称判别式蒸馏架构和频域分布匹配策略来解决扩散 Transformer 在真实图像超分辨率任务中轨迹失配及周期性伪影问题的一步对抗蒸馏框架，实现了最先进的性能。

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

该论文针对真实世界中 3D 语义占据预测面临的标注噪声问题，首次建立了 OccNL 基准并揭示了现有 2D 去噪策略在稀疏 3D 空间中的失效，进而提出了基于双源部分标签推理的 DPR-Occ 框架，在极端噪声下显著提升了感知鲁棒性。

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

该论文提出了一种名为 ADiVA 的生成式零样本学习方法，通过属性分布建模模块学习可迁移的属性分布以解决类内变异性问题，并利用视觉引导对齐模块显式弥合语义与视觉特征分布的鸿沟，从而在多个基准数据集上显著提升了性能。

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

FlowMotion 提出了一种无需训练的框架，通过直接利用基于光流的文生视频模型的潜在预测来提取运动表征并引入速度正则化，从而实现了高效且灵活的视频运动迁移。

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

该论文提出了一种基于垂直分数扩散模型的 3D 牙科种植体补全方法，通过在投影域结合两个不同平面的 2D 扩散模型来利用投影间的相关性，从而有效生成高质量且伪影减少的 3D CBCT 图像。

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

本文提出了 DEX-AR，一种专为自回归视觉语言模型设计的动态可解释性方法，它通过计算生成过程中的层间注意力梯度，结合动态头过滤与序列级过滤机制，生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图，从而有效提升了模型决策过程的透明度与可解释性。

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

该论文提出了 LTA（潜在空间转移攻击），一种通过在预训练 Stable Diffusion 的潜在空间中优化扰动并结合期望变换（EOT）与高斯平滑策略的方法，从而生成具有强迁移性、空间连贯且低频特性的对抗样本，有效克服了传统像素空间攻击在预处理鲁棒性和跨架构迁移方面的局限。

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

本文提出了一种名为 WMoE-CLIP 的零样本异常检测方法，通过结合变分自编码器建模全局语义、小波分解提取多频特征以及语义感知的混合专家模块，有效克服了现有方法在提示词固定和仅依赖空间域特征方面的局限，显著提升了在工业和医疗场景下对未见异常及细微异常的检测能力。

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

该论文提出了一种名为 P-SLCR 的无监督点云语义分割方法，通过一致性结构学习与语义关系一致性推理机制，在 S3DIS 等数据集上实现了超越经典全监督 PointNet 的最优性能。

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

该研究通过邀请多国艺术家评估 ChatGPT 生成的当代艺术作品仿作，发现 AI 在色彩纹理上虽能模仿，却在构图、概念及情感维度上存在显著缺失，因此主张采用多维度的“风格转移仪表盘”而非单一指标来评估此类仿作。

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

该论文提出了 WorldCache 框架，通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制，有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题，在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

本文提出了 K-MaT（知识锚定流形传输）框架，通过结合临床文本锚定提示并采用融合 Gromov-Wasserstein 最优传输技术对齐流形，实现了无需低质量模态训练数据即可将大型生物医学视觉 - 语言模型从高端成像（如 CT）有效迁移至低质量模态（如 X 光），从而在多个跨模态基准测试中取得了优于现有方法的性能并缓解了灾难性遗忘问题。

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

本文提出了动态分块扩散 Transformer（DC-DiT），通过引入端到端学习的编码器 - 路由器 - 解码器架构，根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列，从而在显著降低计算成本的同时提升了生成质量，并支持从预训练 DiT 模型的低成本迁移。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

本文提出了 LATO，一种基于流匹配的新型 3D 网格生成方法，它通过顶点位移场与稀疏体素变分自编码器的结合，在无需等值面提取或启发式网格化的情况下，实现了具有复杂几何结构和良好拓扑保持性的高效显式网格合成。

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

该论文提出了一种基于计算机视觉的方法，利用 BIODISCOVER 双相机系统自动获取无脊椎动物的面积和沉降速度等特征，通过线性模型或端到端深度神经网络，实现了无需人工称重即可对形态各异的个体进行干重估算（中位百分比误差为 10-20%），从而助力生物多样性监测的规模化扩展。

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs