cs.CV 篇论文 | Gist.Science

Topologically Stable Hough Transform

该论文提出了一种基于持续同态的拓扑稳定霍夫变换新框架，通过用连续评分函数替代传统的离散投票机制，从点云中高效检测出候选直线。

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

本文提出了 DynamicVGGT，一种将 VGGT 从静态 3D 感知扩展至动态 4D 重建的统一前馈框架，通过联合预测点云、引入运动感知时序注意力机制及动态 3D 高斯泼溅头，实现了自动驾驶场景下鲁棒且高精度的动态场景重建。

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

该论文提出了一种名为 WaDi 的权重方向感知蒸馏框架，通过引入基于低秩旋转矩阵的 LoRaD 适配器来捕捉并建模蒸馏过程中显著的权重方向变化，从而仅用约 10% 的可训练参数就实现了在 COCO 数据集上达到最先进 FID 分数且具备强泛化能力的一步图像合成。

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

该论文提出了一种无需学习的基于事件相机的 6D 物体位姿跟踪方法，通过融合事件流光流进行位姿传播与模板局部校正策略，在高速动态场景下实现了媲美甚至超越现有最先进算法的性能。

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

该论文提出了一种原型引导的概念擦除方法，通过利用扩散模型的内蕴嵌入几何结构聚类生成概念原型，并将其作为负向条件信号，从而在保持图像质量的同时实现了对“性”或“暴力”等宽泛概念更可靠、精准的擦除。

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

本文提出了 OSCAR 方法，通过利用联合建模空间占据与声学交互的神经隐式表示，在无需解剖标签的情况下，从部分超声观测中准确重建被遮挡的脊椎三维解剖结构，显著提升了脊柱微创手术引导中的形状补全性能。

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

该论文提出了 SP-CLIP 框架，通过利用描述意图、运动和物体交互等多层级抽象的结构化语义提示，在不修改视觉编码器或增加可学习参数的情况下，显著提升了预训练视觉 - 语言模型在零样本动作识别任务中的性能。

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

该论文提出了一种检索增强方法，通过利用 3D 视觉 - 语言编码器从放射学报告中检索相关临床案例并提取其解剖结构作为代理，将其注入文本条件的潜在扩散模型中，从而在保持语义灵活性的同时显著提升了文本生成 CT 图像的空间可控性与解剖一致性。

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

该论文提出了一种概念引导的微调框架，通过利用大语言模型和视觉语言模型自动生成空间定位的概念掩码，引导视觉 Transformer 关注语义特征并抑制虚假背景相关性，从而在无需人工标注的情况下显著提升了模型在分布外场景下的鲁棒性。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

本文提出了 HDR-NSFF，一种将动态场景重建从传统 2D 像素对齐范式转变为 4D 时空建模的新方法，通过联合优化 HDR 辐射场、3D 场景流、几何结构及色调映射，并利用 DINO 特征与生成先验增强鲁棒性，实现了在单目交替曝光视频下的高质量动态 HDR 场景流场重建与新颖时空视图合成。

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

本文提出了名为 SlowBA 的新型后门攻击，通过两阶段奖励级注入策略诱导基于视觉语言模型（VLM）的 GUI 代理在特定触发条件下生成冗长的推理链，从而在保持任务准确性的同时显著增加响应延迟，揭示了此类代理在响应效率方面被忽视的安全漏洞。

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

本文通过大规模人机对比研究，利用最小可识别裁剪（MIRCs）和 Epic ReduAct 数据集，揭示了人类在 egocentric 动作识别中依赖关键语义线索（如手 - 物交互）且对空间缩减敏感，而 AI 模型则更依赖上下文及中低级特征、对时空扰动表现出不同鲁棒性的根本差异。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

该论文提出了一种无需额外标签的通用框架来评估多重实例学习（MIL）热图的质量，并通过大规模基准测试发现扰动法、层相关传播（LRP）和积分梯度（IG）等方法优于传统的注意力热图，从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

cs.CV

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

cs.CV

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

Δ\DeltaΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation