cs.CV 篇论文 | Gist.Science

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

本文提出了一种基于循环一致性的无监督多图匹配方法，通过贝叶斯优化高斯参数，成功在无需任何人工标注的情况下实现了线虫（C. elegans）3D 显微图像中细胞核的语义标注，并构建了首个无监督线虫细胞图谱，其精度媲美现有监督学习方法。

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

本文提出了一种基于生成对抗网络（GAN）的单阶段防御策略，旨在无需预先了解攻击设计的情况下，高效且通用地抵御针对自动驾驶交通标志分类的对抗补丁攻击，显著提升了系统在真实场景下的鲁棒性与实时性。

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

本文提出了语言引导的开放世界视频异常检测范式及 LaGoVAD 模型，通过引入动态视频合成与对比学习等弱监督策略，并结合新构建的大规模多模态 PreVAD 数据集，实现了利用自然语言在推理阶段灵活定义并检测动态变化的异常事件。

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

本文提出了 SwD 框架，通过引入基于最大均值差异（MMD）的补丁级蒸馏目标实现渐进式生成，在显著减少扩散模型采样步数的同时，大幅提升了生成效率与质量。

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

本文提出了首个结合投影差分隐私（PDP-SGD）与特征差分隐私（FDP）的混合框架，通过向低维子空间投影噪声梯度和选择性隐私化敏感特征，在 MPII 数据集上实现了隐私保护与 2D 人体姿态估计性能的有效平衡。

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

本文提出了 ANSE 框架，通过量化注意力机制的不确定性来主动选择最佳初始噪声，从而在无需显著增加推理成本的情况下，显著提升视频扩散模型的生成质量与时序一致性。

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

本文提出了 SABER 框架，通过生成具有多视角和时间一致性的通用 3D 对抗物体，在不修改目标车辆的情况下有效攻击鸟瞰图（BEV）3D 目标检测器，从而揭示了自动驾驶系统对上下文线索的过度依赖并提供了更实用的鲁棒性评估方案。

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

本文提出了交互场匹配（IFM）方法，通过引入受夸克与反夸克强相互作用启发的通用交互场，克服了静电场匹配（EFM）在建模电容板外复杂场时的局限性，并在多种数据生成与迁移任务中验证了其有效性。

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

本文提出了 HSSBench，这是一个专为评估多模态大语言模型在人文社科领域跨学科推理能力而设计的多语言基准，通过专家与智能体协作生成的 1.3 万多个样本填补了现有评测体系的空白，并揭示了当前顶尖模型在此类任务上仍面临显著挑战。

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

本文提出了无需训练的"Frame Guidance"方法，通过创新的潜在空间处理与优化策略，实现了基于关键帧、风格参考图、草图或深度图等帧级信号对任意视频扩散模型的高效可控生成。

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

该论文提出了 Perception-R1 方法，通过引入基于视觉感知一致性的新型奖励机制，有效解决了现有强化学习范式难以提升多模态大模型感知能力的问题，从而显著增强了其多模态推理性能。

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

本文提出了 StreamSplat，一种完全前馈的在线框架，能够通过三项关键技术革新，将未校准的视频流即时转化为动态 3D 高斯泼溅（3DGS）表示，在实现任意长度视频实时重建的同时，将重建速度相比传统优化方法提升了 1200 倍并达到了最先进的重建质量。

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

该论文提出了名为 ECAD 的进化缓存方法，利用遗传算法为扩散模型自动学习高效的缓存调度策略，在无需修改模型参数或参考图像的情况下，显著提升了推理速度并实现了质量与延迟的灵活权衡，且在多种模型、分辨率及未见过的变体上展现出卓越的泛化能力。

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

该论文通过系统评估发现，利用文生图模型实时生成图像作为“合成感知”机制，能够有效弥合文本与视觉模态间的差距，从而在特定条件下显著提升纯文本大语言模型的推理能力。

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

该论文提出了 SceneStreamer，一种基于 Transformer 的自回归统一框架，通过将交通场景表示为包含信号灯、智能体状态及运动矢量的令牌序列进行连续生成，从而克服了现有数据驱动方法的局限，实现了能够动态引入和移除智能体的高保真、长视野自动驾驶仿真环境。

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

本文提出了一种基于条件噪声信号动态调整引导尺度的退火调度策略，旨在解决无分类器引导（CFG）的稳定性问题，从而在不增加额外计算开销的前提下显著提升文本到图像生成的质量与提示词对齐度。

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

本文提出了一种名为 MC-INR 的新型框架，通过结合元学习、基于残差的动态重聚类机制以及多变量分支层，有效解决了现有隐式神经表示方法在处理复杂非结构化网格多变量科学模拟数据时存在的灵活性不足、单变量局限及网格依赖等问题。

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

cs.CV