cs.LG 篇论文 | Gist.Science

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

该论文提出了一种检测门控流水线，通过结合定位器与分割器及时间一致性机制，实现了跨数据集鲁棒的高清喉镜声门区域波形提取，并验证了其在区分健康与病理发声功能中的临床有效性。

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本文提出了一种结合 CoAtNet 架构与模型汤（Model Soups）技术的框架，通过集成多样化检查点来降低方差并提升泛化能力，从而在数据稀缺的湄公河三角洲非物质文化遗产图像分类任务中取得了优于现有基准的优异性能。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

本文研究了基于联合线性近似的个性化多智能体平均奖励 TD 学习，提出了一种单时间尺度合作算法，通过联合估计共享子空间与局部权重，在异质马尔可夫采样环境下有效缓解信号冲突并实现线性加速收敛。

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable $\ell_1$ -regression into neural networks for uncovering temporal structure in cell imaging

该论文提出了一种将可解释的 $\ell_1$ 正则化向量自回归模型嵌入卷积自编码器的方法，通过区分稀疏动态与静态空间信息，从双光子钙成像数据中有效提取稀疏时间结构并实现动态驱动因素的可视化。

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本文提出了一种无需梯度计算或参数更新的无监督方法，通过引入 GramCol 和运动特征选择算法生成可解释的运动注意力图（IMAP），从而在视频扩散 Transformer 中实现了对运动及非运动概念时空定位的精准解释。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

本文提出了名为 CGL 的持续 GUI 学习框架，通过基于策略熵动态调整监督微调与强化学习的比例，并采用将 SFT 梯度投影到 GRPO 锚点梯度上的梯度手术策略，有效解决了 GUI 智能体在适应新任务时遗忘旧知识的难题，同时发布了 AndroidControl-CL 基准以评估该性能。

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

该论文通过引入停止时间/鞅分析，在经典有界方差假设下首次从理论上证明了 Adam 算法的高概率收敛性对置信参数 $\delta$ 的依赖为 $\delta^{-1/2}$ ，优于 SGD 算法必然存在的 $\delta^{-1}$ 依赖，从而解释了 Adam 具有更尖锐尾部（即更优的高概率收敛表现）的原因。

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

该论文提出了组分探针分解（CPD）方法，揭示了在原子基础模型中，任务对齐度是决定几何与组分信息能否线性解耦的主导因素，并发现不同架构模型间存在显著的线性可及性梯度，且信息在特定对称性通道（如向量通道编码偶极矩、标量通道编码能隙）中按对称类型路由。

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

本文提出了 XInsight，一个受心理咨询启发的多智能体框架，通过模拟“探索 - 洞察 - 行动”范式及“推理 - 干预 - 反思”循环，将开放式网络对话转化为标准化的心理治疗记录，并引入 XInsight-Bench 评估基准，从而为数字健康应用提供了更具可解释性、连贯性和临床一致性的心理支持解决方案。

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

本文介绍了 vLLM Hook v0，这是一个开源插件，旨在突破现有 vLLM 对模型内部状态编程的限制，通过被动监控和主动干预两种机制，支持在推理过程中实时检测对抗提示、增强检索增强生成（RAG）以及实施激活导向等高级功能。

Ching-Yun Ko, Pin-Yu Chen2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

本文提出了一种名为“等渗层”（Isotonic Layer）的新型可微框架，通过将分段线性拟合与约束优化直接集成到神经网络中，实现了对推荐系统偏差的自适应校准与全局单调性约束，从而在提升预测精度和排序一致性的同时显著增强了模型的可靠性与公平性。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

该论文从可解释性视角揭示了大语言模型中“注意力汇聚”现象的成因，提出了一种不依赖语义信息的"P0 汇聚电路”机制，解释了模型如何在输入序列首个令牌处形成注意力汇聚，并发现该机制在训练早期出现且随训练进程逐渐集中，可作为预训练收敛状态的潜在指标。

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

该论文利用概率上下文无关文法（PCFG）生成合成语料，揭示了数据生成过程中的层次结构是统一解释 Transformer 语言模型中归纳头、函数向量和 Hydra 效应等机制现象涌现的关键因素，并为此提供了理论依据。

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

本文提出了分层嵌入融合（HEF）方法，通过离线构建可复用的分层向量缓存和在线将检索向量映射为固定数量的伪令牌，在保持仓库级代码生成精度的同时，显著降低了检索增强代码生成的推理延迟。

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

本文提出了一种名为 FuzzingRL 的强化模糊测试方法，通过结合视觉与语言模糊变换及对抗性强化微调，自动生成旨在诱导视觉语言模型（VLM）产生错误回答的多样化问题，从而有效揭示并降低目标模型的性能。

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

SWAN（可切换激活网络）通过为每个神经单元引入一种确定性且依赖输入的二值门控机制，使网络能够自适应地学习激活模式，从而在保持精度的同时显著降低计算成本，并统一了稀疏性、剪枝与自适应推理的优势。

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

该论文提出了基于 Khatri-Rao 积的聚类新范式，通过假设质心由多个简洁的“原型质心”交互生成，分别构建了 Khatri-Rao k-Means 算法与深度聚类框架，从而在保持数据摘要准确性的同时显著提升了其简洁性。

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

该论文揭示了数据重复性具有尺度依赖性，即随着模型能力提升，语义重复文档的梯度对齐度增加且语义碰撞加剧，导致大模型在有限独特语料上训练时出现性能退化并偏离预期扩展规律，进而提出了相应的扩展定律以修正预测。

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

该论文提出了一种基于输出锚点概率的归一化置信度评分框架，用于在无需外部验证的情况下检测大语言模型的错误与幻觉，并通过理论分析与实验证实了监督微调能提升置信度校准性而强化学习易导致过度自信，进而提出后强化学习微调方案以恢复模型可靠性，最终实现了在自适应检索增强生成中仅用 58% 的检索操作即可恢复 95% 最大精度增益的高效应用。

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

本文提出了结构感知集合变换器（STAR-Set），通过引入可学习的软注意力偏置（时间局部性惩罚和变量类型亲和力）来恢复电子健康记录中异步多变量时间序列的轨迹与上下文结构，从而在 ICU 预测任务中显著优于现有的网格化及集合基线模型。

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

cs.LG