cs.LG 篇论文 | Gist.Science

Marginals Before Conditionals

该论文构建了一个最小化任务来研究神经网络的条件学习，发现模型会先学习边际分布并陷入由歧义度决定的损失平台期，随后在梯度噪声和内部路由机制的驱动下发生相变，最终习得完整的条件分布。

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

本文提出了一种参数化哈密顿量并强制满足互连矩阵斜对称性与耗散矩阵半正定性的随机端口哈密顿神经网络（SPH-NN），在理论上证明了其具备通用逼近能力与期望弱无源性，并在实验中对含噪振荡器系统实现了比传统多层感知机更优的长时程预测精度与能量守恒性能。

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

该论文通过分析 NTK 缩放下浅层全连接网络的 SGD 训练，建立了一个基于显式函数 $G$ 的定量理论，用以界定“弹射阶段”中大 NTK 平坦化尖峰出现的概率条件，从而解释了为何在实际网络宽度下仍会观察到此类尖峰现象。

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

该论文提出了一种名为"Amnesia"的轻量级激活空间对抗攻击方法，通过操纵开放权重大语言模型的内部 Transformer 状态，无需微调即可绕过现有安全机制并诱导其生成有害内容，从而凸显了当前模型安全防护的不足及加强研究的紧迫性。

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

该论文提出了一种受经典傅里叶神经算子启发的多阶段残差学习框架，通过迭代训练量子模块以修正前序阶段的残差，有效缓解了量子模型在傅里叶参数化中难以学习多频率成分（尤其是高频或非主导频率）的偏差问题，显著提升了模型在复杂频谱任务中的表现。

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

该论文提出了多级别概念拆分（MLCS）和深度层级概念嵌入模型（Deep-HiCEMs），旨在仅利用顶层监督信号自动发现多层级概念层次结构，从而在保持高准确率的同时支持多层次的概念干预并提升模型性能。

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

KernelSkill 是一个采用双层级记忆架构的多智能体框架，通过利用知识驱动且感知任务轨迹的专家优化技能替代传统大模型中的隐式启发式方法，显著提升了 GPU 内核的生成效率与可解释性，并在 KernelBench 基准测试中实现了远超现有基线的加速效果。

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

本文提出了 ES-dLLM，一种无需训练的扩散大语言模型推理加速框架，它通过利用中间表示的细微变化动态跳过早期层中的低重要性 token，在保持生成质量的同时实现了高达 16.8 倍的推理速度提升。

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

这篇论文首次提出了“权重空间学习”（WSL）的统一分类体系，将现有方法归纳为权重空间理解、表示与生成三大核心维度，并阐述了其在模型检索、持续学习、神经架构搜索等实际应用中的价值。

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

本文提出了一种名为等变异步扩散（EAD）的新型模型，通过引入自适应的动态去噪调度机制，有效结合了异步自回归与同步扩散模型的优势，从而在捕捉分子层级因果关系的同时实现了分子级生成视野，显著提升了三维分子构象生成的性能。

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

该论文针对时间序列预测中的分布漂移问题，提出了一种名为 TS_Adam 的轻量级优化器变体，通过移除二阶偏差校正来增强模型对非平稳数据的适应性，从而在无需额外超参数的情况下显著降低了预测误差。

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

该论文提出了代码空间响应 oracle（CSRO）框架，通过利用大语言模型将多智能体策略生成重构为代码生成任务，从而在保持与基线相当性能的同时，解决了传统强化学习方法中策略不可解释的问题，并实现了可解释、多样化且具备人类智能特征的策略合成。

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

本文提出了名为 BlueDown 的新型后处理方法，通过利用层级结构设计的广义最小二乘回归算法及高效的线性代数运算，在满足美国人口普查局隐私保护和结构约束的前提下，显著提升了 2020 年人口普查数据在郡县和街区等层级上的估计准确性与一致性。

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

该论文提出了一种基于最高有效位（MSB）代理的“软稀疏”范式，通过将其集成到自定义 RISC-V 指令中，在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗，从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

CLIPO 通过将对比学习机制引入策略优化，解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题，从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性，源于残差连接与因果掩码共同作用导致的梯度影响分布，表现为首尾信息优势与中间区域的结构化训练敌对，且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

该论文提出了一种利用非平衡 Wasserstein 重心进行字典学习的方法，以克服现有基于 Wasserstein 空间的方法在平衡光谱分布时模糊类别并牺牲抗噪性的问题，从而实现更鲁棒的高光谱图像无监督聚类。

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

该论文提出了一种结合隐式数值格式的神经算子方法，仅需利用少量数据（如 7% 的带宽）即可训练模型以高精度（99.87%）预测线性单自由度系统的振动频率响应曲线，从而在不依赖物理正则化损失函数的情况下实现了对系统动力学规律的隐式学习并显著提升了工程振动研究的效率。

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

该论文提出了一种名为“混合学习（Mashup Learning）”的方法，通过识别并合并与目标任务最相关的历史检查点来优化模型初始化，从而在多个基准测试中显著提升了下游任务的准确率并大幅缩短了微调所需的训练时间和步数。

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题，提出了一种名为 ReMix 的新方法，通过引入不可学习的路由权重确保各 LoRA 平等激活，并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计，从而在参数量相当的情况下显著提升了微调性能。

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG