CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

本文提出了 CityGuard 框架,这是一种面向城市级分布式监控的隐私保护身份检索系统,它通过整合自适应度量学习、空间条件图注意力机制以及差分隐私嵌入技术,在无需共享原始图像的前提下有效解决了视角变化、遮挡和域偏移问题,实现了隐私与实用性的平衡。

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

该论文提出了一种名为 LFG 的无标签教师引导框架,利用大规模未标注的野外视频,通过多模态伪监督信号学习统一的伪 4D 表征,从而在无需相机位姿、标注或激光雷达的情况下,实现了在自动驾驶规划及多种感知任务中超越多传感器基线的卓越性能。

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

本文针对将 GRPO 从语言推理迁移至视觉感知任务时存在的假设误区,提出了无需架构修改的 Dr. Seg 框架,通过引入“观察确认”机制和分布排序奖励模块,有效解决了输出空间不足与奖励细粒度不稳定问题,显著提升了视觉大语言模型在复杂场景下的表现。

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

本文提出了 AlignVAR 框架,通过引入空间一致性自回归(SCA)和分层一致性约束(HCC)两大核心组件,有效解决了视觉自回归模型在图像超分辨率任务中面临的局部偏差与误差累积问题,在显著提升全局一致性与感知质量的同时,实现了比主流扩散方法快 10 倍且参数量减少近 50% 的高效推理。

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

该论文针对现有指令驱动视频编辑方法在视觉控制精度上的不足,提出了一种利用图像生成模型构建大规模参考数据集(RefVIE)的可扩展数据生成流程,并设计了结合可学习查询与潜在视觉特征的统一架构 Kiwi-Edit,通过多阶段训练显著提升了视频编辑的指令遵循能力与参考保真度,确立了新的最先进水平。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

本文提出了 PVT-GDLA,一种基于门控差分线性注意力机制的线性时间解码器,通过互补子空间差分去噪、自适应门控及局部混合分支,在保持低计算复杂度的同时显著提升了医学图像分割的边界保真度与长程依赖建模能力,并在多种模态基准上实现了优于现有 CNN 及 Transformer 方法的性能。

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs