cs.CV 篇论文 | Gist.Science

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

该论文提出了 MSP 框架，通过发型导向增强、保留结构的随机擦除以及基于解析的注意力机制，有效缓解了发型变化对基于衣着变更的人体重识别（CC-ReID）的干扰，从而在多个基准测试中实现了最先进的性能。

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

该论文提出了一种检测门控流水线，通过结合定位器与分割器及时间一致性机制，实现了跨数据集鲁棒的高清喉镜声门区域波形提取，并验证了其在区分健康与病理发声功能中的临床有效性。

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本文提出了一种结合 CoAtNet 架构与模型汤（Model Soups）技术的框架，通过集成多样化检查点来降低方差并提升泛化能力，从而在数据稀缺的湄公河三角洲非物质文化遗产图像分类任务中取得了优于现有基准的优异性能。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

本文评估了 DINOv3 作为冻结骨干网络在蓝莓机器人采摘任务（如分割与检测）中的表现，指出其虽能通过轻量级解码器显著提升分割效果，但在处理尺度变化及空间聚合目标（如簇检测）时存在局限，因此更适合作为依赖下游空间建模的语义骨干而非端到端任务模型。

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本文提出了一种无需梯度计算或参数更新的无监督方法，通过引入 GramCol 和运动特征选择算法生成可解释的运动注意力图（IMAP），从而在视频扩散 Transformer 中实现了对运动及非运动概念时空定位的精准解释。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

本文提出了名为 CGL 的持续 GUI 学习框架，通过基于策略熵动态调整监督微调与强化学习的比例，并采用将 SFT 梯度投影到 GRPO 锚点梯度上的梯度手术策略，有效解决了 GUI 智能体在适应新任务时遗忘旧知识的难题，同时发布了 AndroidControl-CL 基准以评估该性能。

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

本文提出了 LDP-Slicing 框架，通过将图像像素分解为比特平面并结合感知混淆与隐私预算优化策略，在无需训练的情况下有效解决了本地差分隐私在图像数据上的高维效用损失问题，显著提升了下游任务的性能。

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

该论文提出了一种名为 DeepScope 的深度学习系统，通过分析未培养水样的显微图像，在无需 24-72 小时病原体培养的情况下，以每测试 0.44 美元的成本和超过 98% 的时间缩减，实现了秒级的高精度（93% 准确率）水质安全检测。

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

本文提出了一种名为 OptiRoulette 的随机元优化器，它通过在训练过程中动态选择更新规则，在多个图像分类基准测试中显著提升了收敛速度和最终准确率，并实现了比单一 AdamW 基线更可靠的训练目标达成率。

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

本文通过提出一种基于两个简单线性方程的统一表示来整合扩散模型与流匹配，并理论分析指出这些现有模型中噪声数据与预测目标之间的相关性有时较弱，从而可能影响关键的预测或学习过程。

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

本文提出了 RECAP 方法，这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略，通过局部突触可塑性规则实现无需反向传播的鲁棒识别，并在未见过的图像噪声下展现出优异的泛化能力。

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患，即被剪枝的权重位置本身会泄露关键信息，使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念，并据此提出了相应的防御策略。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

针对虚拟现实环境中缺乏直接交互线索的背景物体状态变化检测难题，该论文提出了专用的 ObjChangeVR 数据集，并设计了结合视点感知、时序检索与跨视角推理的 ObjChangeVR 框架，显著提升了多模态大模型在此类任务上的表现。

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

该论文提出了一种基于扰动保真度（Perturbation Fidelity）的边际一致性框架，通过结合注意力加权聚合与边际感知训练，显著提升了侵入性肺腺癌全切片图像亚型分类在真实世界扰动下的鲁棒性与跨机构泛化能力。

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

该论文提出了 PaLMR 框架，通过构建感知对齐的数据层与过程对齐的优化层，解决了多模态大模型在强化学习中因过度关注最终答案而容忍推理过程幻觉的问题，从而显著提升了视觉推理的忠实度与可靠性。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

本文提出了一种名为 FCBNet 的参数高效卷积模型，通过采用冻结的 ConvNeXt 骨干网络、特征校正模块（FCB）及轻量级解码器，在多种光谱模态下实现了超过 85% 的 mIoU 高精度杂草分割，同时显著降低了训练时间和参数量。

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

本文提出了 GameVerse 基准，通过引入“反思并重试”的范式，证明视觉语言模型能够像人类一样从视频反馈（包括失败轨迹和专家教程）中学习并优化游戏策略。

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

该论文针对注意力机制在基于实例的学习（MIL）中存在的动态不稳定、过拟合及注意力过度集中三大问题，提出了一种引入锚点模型、归一化 Sigmoid 函数及 Token 随机丢弃的 ASMIL 统一框架，显著提升了全切片图像（WSI）诊断的性能。

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

该论文提出了 EnsAug 框架，通过为集成学习中的每个专家模型分别应用单一独特的几何变换来训练，从而在保持人体运动几何约束的同时提升模型多样性，在多个手势和动作识别基准测试中实现了优于传统混合增强方法的性能。

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

本文提出了 HyperTokens 框架，通过按需生成微调令牌、引入元启发式正则化以抑制遗忘，并结合因果视角的辅助多模态监督，在显著降低存储成本的同时实现了视频语言理解任务的高效持续学习。

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG