cs.CV 篇论文 | Gist.Science

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

本文提出了 CityGuard 框架，这是一种面向城市级分布式监控的隐私保护身份检索系统，它通过整合自适应度量学习、空间条件图注意力机制以及差分隐私嵌入技术，在无需共享原始图像的前提下有效解决了视角变化、遮挡和域偏移问题，实现了隐私与实用性的平衡。

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

本文提出了 CARE，一种通过自监督预训练和跨模态分子对齐策略，能够自动划分形态学相关区域并克服现有模型局限性的病理基础模型，在仅使用十分之一预训练数据的情况下，于 33 项下游任务中取得了超越现有基线的卓越性能。

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

本文提出了首个利用独立 LoRA 模块作为攻击载体的系统性框架 MasqLoRA，通过在少量“触发词 - 目标图像”对上训练，使文本到图像扩散模型在加载特定适配器并输入触发词时植入隐蔽的后门行为，从而揭示了 LoRA 共享生态中严峻的供应链安全风险。

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

本文提出了 RobustVisRAG，这是一种通过因果引导的双路径框架和 Distortion-VisRAG 基准数据集，有效解决视觉退化（如模糊、噪声等）导致的检索增强生成性能下降问题，在显著提升鲁棒性的同时保持了零样本泛化能力。

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

该论文提出了一种名为 LFG 的无标签教师引导框架，利用大规模未标注的野外视频，通过多模态伪监督信号学习统一的伪 4D 表征，从而在无需相机位姿、标注或激光雷达的情况下，实现了在自动驾驶规划及多种感知任务中超越多传感器基线的卓越性能。

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

本文提出了 Diffusion Probe 框架，通过利用扩散模型早期去噪阶段的交叉注意力分布来预测最终图像质量，从而在生成完成前实现高效的质量评估，显著降低了多生成场景下的计算开销并提升了输出质量。

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

DiffusionHarmonizer 是一种基于单步在线扩散模型的增强框架，通过专门构建的合成 - 真实数据对进行训练，有效解决了神经重建场景中的渲染伪影与动态物体融合问题，从而在单 GPU 上实现了高保真且时序一致的自动驾驶仿真。

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D 提出了一种统一的无监督前馈框架，仅需两张未标定图像即可直接估计动态 3D 高斯泼溅，通过单一动态表示的差异化渲染实现几何、运动与相机位姿的联合一致重建，并在多项指标上显著超越现有方法。

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

本文针对将 GRPO 从语言推理迁移至视觉感知任务时存在的假设误区，提出了无需架构修改的 Dr. Seg 框架，通过引入“观察确认”机制和分布排序奖励模块，有效解决了输出空间不足与奖励细粒度不稳定问题，显著提升了视觉大语言模型在复杂场景下的表现。

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

本文提出了 AlignVAR 框架，通过引入空间一致性自回归（SCA）和分层一致性约束（HCC）两大核心组件，有效解决了视觉自回归模型在图像超分辨率任务中面临的局部偏差与误差累积问题，在显著提升全局一致性与感知质量的同时，实现了比主流扩散方法快 10 倍且参数量减少近 50% 的高效推理。

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

本文提出了名为 SOLACE 的无监督后训练框架，通过利用模型在自去噪过程中恢复注入噪声的内在自置信度信号作为奖励，无需外部标注或奖励模型即可显著提升文生图模型在组合生成、文本渲染及图文对齐等方面的表现，并能与外部奖励互补以减轻奖励黑客现象。

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

本文提出了 Dr. Occ 框架，通过引入利用 MoGe-2 深度线索的 D²-VFormer 解决视变换几何错位问题，并结合受混合专家启发的 R²-EFormer 应对空间类别不平衡，从而在纯视觉 3D 占据预测任务中显著提升了性能。

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本文提出了 FreeAct 框架，通过利用激活值的秩亏特性解耦权重与激活的变换，为不同 token 类型分配动态变换矩阵，从而在扩散和多模态大语言模型中显著提升了量化性能。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

该论文针对现有指令驱动视频编辑方法在视觉控制精度上的不足，提出了一种利用图像生成模型构建大规模参考数据集（RefVIE）的可扩展数据生成流程，并设计了结合可学习查询与潜在视觉特征的统一架构 Kiwi-Edit，通过多阶段训练显著提升了视频编辑的指令遵循能力与参考保真度，确立了新的最先进水平。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

本文提出了名为 Track4World 的前馈模型，该模型基于 VGGT 风格的 ViT 全局 3D 场景表示，通过新颖的 3D 相关机制实现了单目视频中所有像素在世界坐标系下的高效、稠密且鲁棒的 4D 轨迹跟踪。

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

本文提出了 PVT-GDLA，一种基于门控差分线性注意力机制的线性时间解码器，通过互补子空间差分去噪、自适应门控及局部混合分支，在保持低计算复杂度的同时显著提升了医学图像分割的边界保真度与长程依赖建模能力，并在多种模态基准上实现了优于现有 CNN 及 Transformer 方法的性能。

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

该论文提出了一种名为 MultiShadow 的基于扩散模型的框架，通过融合图像多尺度特征与编码物体位置信息的文本提示，解决了现有方法难以生成多物体场景下几何一致且物理逼真的阴影问题，并在单物体与多物体阴影生成任务中均取得了最先进的性能。

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

本文提出了名为 IoUCert 的新型形式化验证框架，通过引入坐标变换和最优区间边界传播方法，首次实现了对 SSD、YOLOv2 和 YOLOv3 等基于锚框的目标检测模型在复杂非线性变换及交并比（IoU）指标下的鲁棒性验证。

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

本文提出了一种结合 DMD2 扩散引导分布匹配与解剖结构保持正则化的改进型无配对神经薛定谔桥框架，旨在解决超低场（64 mT）脑 MRI 向 3T 图像翻译中配对数据稀缺的问题，从而在增强图像真实感的同时有效保留解剖结构。

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

该论文提出了一种名为 TumorFlow 的框架，通过结合生物物理生长模型与生成式人工智能，实现了针对胶质母细胞瘤的、具有可解释性和可控性的患者特异性纵向 3D MRI 合成，从而能够生成符合真实生物学规律的肿瘤浸润与进展轨迹。

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs