cs.CV 篇论文 | Gist.Science

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

本文提出了 PDD 框架，通过结合 VMamba 与 Wide-ResNet 的双教师先验、流形匹配统一模块及多样化蒸馏策略，有效解决了医学图像中细微异质异常检测的难题，并在多个数据集上取得了显著优于现有最先进方法的性能。

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

该论文提出了名为 CanoVerse 的包含 32 万个 3D 对象的超大规模标准化数据集及高效对齐框架，通过解决 3D 资产的方向歧义问题，显著提升了 3D 生成稳定性、跨模态检索精度及零样本点云姿态估计能力。

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

该论文针对现有生成式视频世界模型无法模拟“视线外”动态演化的问题，提出了名为 LiveWorld 的新框架，通过引入持久化全局状态和基于监控的机制，实现了物体在未被观测时仍能持续演化并在重访时保持时空一致性的 4D 动态世界模拟。

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

本文提出了 PromptGate，一种针对开放集联邦主动学习的动态视觉语言模型门控框架，通过联邦类特定上下文优化在保护隐私的同时自适应本地临床领域，有效过滤分布外噪声并显著提升标注数据纯度。

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

该论文提出了一种名为 ACD-U 的框架，通过结合非对称协同教学（利用预训练 CLIP Vision Transformer 与 CNN 的互补特性）和基于损失轨迹及 CLIP 一致性检查的机器遗忘机制，实现了从被动避免错误到主动修正错误的范式转变，从而在含噪标签数据上取得了最先进的鲁棒性表现。

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

该研究提出了一种可视化框架，系统评估了基于 Transformer 的计算病理学模型中的类别可视化与激活图谱，揭示了模型在不同标签粒度下对组织形态学概念的学习结构，并证实了这些可视化方法在反映专家共识与内在病理复杂性方面的有效性。

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

本文提出了名为 FreeFly-Thinking 的端到端无人机视觉语言导航框架，通过构建专用数据集、引入思维链推理机制以及采用监督微调与强化微调的两阶段训练策略，有效解决了复杂户外场景中无人机依据自然语言指令进行连续导航的难题。

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

该论文提出了无需训练的 FastSTAR 框架，通过结合时空相似性评估的 Token 剪枝与部分更新机制，有效解决了时空自回归视频生成中的“Token 爆炸”问题，在保持高质量的同时实现了最高 2.01 倍的加速。

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

该论文提出了一种名为“塑造参数贡献模式”（SPCP）的方法，通过训练期间动态抑制过高的参数贡献，促使分类器学习更密集的边界导向型参数依赖模式，从而有效缓解深度模型因过度依赖少数主导参数而导致的分布外（OOD）检测过自信问题。

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

该论文提出了 VINO 框架，通过利用结构先验生成非语义视图并构建不对称蒸馏任务，有效解决了视频自监督学习中因前景与背景协同运动导致的上下文捷径问题，从而学习到具有强物体中心不变性的鲁棒特征表示。

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

LightMedSeg 提出了一种结合解剖先验与自适应上下文建模的模块化轻量级 3D 医学图像分割架构，通过引入锚点条件特征调制、局部结构先验及计算优化策略，在仅消耗极低参数量和计算量的情况下实现了与重型 Transformer 基线模型相当的分割精度。

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

本文提出了 BATDiff，一种基于双变量 A Trous 小波扩散的无监督单图像超分辨率模型，通过构建保留全空间分辨率的多尺度表示并建模跨尺度依赖关系，有效解决了扩散方法在生成高频细节时缺乏底层证据支持及易产生伪影的问题，从而实现了更清晰且结构一致的重建。

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

本文提出了 HY-WU（Weight Unleashing）框架，通过引入基于实例条件实时合成权重更新的神经功能记忆模块，取代了传统的静态权重覆盖范式，从而有效解决了基础模型在长期部署中应对领域漂移、用户偏好演变及新任务出现时的持续学习与即时个性化挑战。

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

本文提出了 FabricGen 框架，通过结合在去微结构数据集上微调的扩散模型生成宏观纹理，以及利用基于大语言模型（WeavingLLM）驱动的增强程序化几何模型生成符合编织原理的微观纱线结构，实现了从文本描述端到端生成高保真、细节丰富的编织面料材料。

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

本文提出了 PresentBench，这是一个包含 238 个实例及细粒度检查清单的基于评分标准的基准测试，旨在通过更可靠且与人类偏好高度一致的评估方式，解决现有幻灯片生成模型评估粗糙的问题，并验证了 NotebookLM 在该领域的显著优势。

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

该论文针对卫星遥感预计算嵌入中几何不匹配及标准插值失效的问题，提出了一种学习几何等变性的预测架构（LEPA），通过直接预测几何变换后的嵌入而非简单插值，显著提升了 NASA/USGS HLS 影像及 ImageNet-1k 数据集上的几何调整精度（MRR 从低于 0.2 提升至 0.8 以上）。

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

本文提出了变分流图（VFMs）框架，通过将条件生成问题转化为学习适配观测的初始噪声分布，实现了在单步前向传播中生成高质量且校准良好的条件样本，从而在解决逆问题时显著超越了传统迭代扩散模型的效率。

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

该论文针对现有虚拟试穿基准在文化多样性上的不足，提出了专注于孟加拉国传统服饰的 BD-VITON 数据集，并通过在该数据集上重训和评估主流模型，证明了其相较于零样本推理在定量和定性分析上的显著优势。

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

该论文提出了专为鸟类物种设计的多模态对话助手 MAviS，通过构建包含图像、音频和文本的大规模数据集（MAviS-Dataset）及评估基准（MAviS-Bench），训练出在细粒度物种理解与多模态问答方面表现优于现有开源模型（如 MiniCPM-o-2.6）的 MAviS-Chat，从而推动了生物多样性保护与生态监测领域的智能化发展。

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

该论文提出了一种结合对抗训练与中间层特征图平滑的轻量级方法，在保持稀疏性的同时显著提升了梯度类显著性图的输入与输出稳定性，并通过用户研究验证了其生成的解释更具可信度。

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs