cs.CV 篇论文 | Gist.Science

HiconAgent: History Context-aware Policy Optimization for GUI Agents

本文提出了 HiconAgent，一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体，在显著降低计算成本的同时实现了优于更大规模模型的性能。

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

本文提出了 MAViD 框架，通过“指挥者 - 创作者”架构及结合自回归与扩散模型的双 DiT 结构，实现了能够生成身份、音色和语调一致且长时连贯的生动音视频对话交互。

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

该论文揭示了视觉大语言模型深层中存在“信息视界”现象，即视觉令牌信息随层数加深而逐渐均匀化直至消失，导致深层训练无关剪枝效果不优于随机剪枝，进而提出在深层结合随机剪枝的策略，在大幅降低计算成本的同时保持了模型的高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

本文针对非结构化野外环境下的矢量路网提取难题，发布了大规模数据集 WildRoad 并提出了基于路径推理的 MaGRoad 框架，通过聚合多尺度视觉证据有效克服了现有节点中心方法的局限性，在显著提升野外场景拓扑精度的同时实现了更快的推理速度。

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

该论文提出了一种结合规则化口罩形变与无配对图像翻译生成对抗网络的两步数据增强框架，旨在利用极少量训练数据生成高质量口罩人脸样本以解决相关任务数据匮乏问题，并坦诚说明了其受限于资源约束、未完成下游定量评估及非 AI 辅助生成的背景。

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

本文提出了 SALVE 框架，通过结合稀疏自编码器与 Grad-FAM 验证方法，实现对神经网络特征的无监督发现、可视化验证及基于权重空间的精确编辑，从而在卷积和 Transformer 模型上达成可解释的机制性控制。

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

本文提出了无需训练的 ReMeDI-SAM3 方法，通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块，有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题，并在多个数据集上实现了超越现有训练方法的零样本性能提升。

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据，发现人口统计学特征和个性对绿视感知影响甚微，而居住地点（反映文化、环境及经验因素）是解释客观绿量与主观感知差异的最关键因素。

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

本文提出了 Re-Depth Anything 框架，通过利用大规模 2D 扩散模型先验进行自监督重光照与重合成，在测试阶段无需标签即可显著修正基础深度模型（如 Depth Anything V2/3）在真实场景中的预测误差，从而实现了当前最先进的单目深度估计精度与真实感。

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

该论文针对单目 3D 语义场景补全中可见区域感知与遮挡区域推理相互干扰的问题，提出了一种通过离线可见区域标签提取策略分离监督信号，并采用可见 - 遮挡双解码器架构进行显式解耦与协同推理的 VOIC 方法，在多个基准测试中实现了最先进的性能。

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

该论文提出了一种结合多头选择性状态空间模型与轻量级通道 MLP 的高效混合扫描视觉 Mamba 框架，通过极低的计算成本在 7T 脑部和 1.5T 前列腺 MRI 超分辨率任务中实现了超越现有方法的精度与解剖细节保留能力。

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本文提出了 DrivingGen，这是首个针对自动驾驶生成式世界模型的综合基准，通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标，解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

该论文提出了一种基于 Swin Transformer 和序列到序列解码器的轻量级两阶段多任务视觉语言框架，通过先训练后冻结视觉编码器的策略，在作物病害视觉问答任务中实现了接近完美的分类精度、优异的语言生成能力及良好的可解释性，并在外部基准测试中展现了出色的泛化性能。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本文提出了名为 R^4 的自改进智能体框架，通过路由、检索、反思与修复四个协同智能体，在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像（如胸部 X 光）报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

cs.CV