cs.LG 篇论文 | Gist.Science

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

该论文针对时间序列预测中的分布漂移问题，提出了一种名为 TS_Adam 的轻量级优化器变体，通过移除二阶偏差校正来增强模型对非平稳数据的适应性，从而在无需额外超参数的情况下显著降低了预测误差。

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

该论文提出了代码空间响应 oracle（CSRO）框架，通过利用大语言模型将多智能体策略生成重构为代码生成任务，从而在保持与基线相当性能的同时，解决了传统强化学习方法中策略不可解释的问题，并实现了可解释、多样化且具备人类智能特征的策略合成。

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

本文提出了名为 BlueDown 的新型后处理方法，通过利用层级结构设计的广义最小二乘回归算法及高效的线性代数运算，在满足美国人口普查局隐私保护和结构约束的前提下，显著提升了 2020 年人口普查数据在郡县和街区等层级上的估计准确性与一致性。

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

该论文提出了一种基于最高有效位（MSB）代理的“软稀疏”范式，通过将其集成到自定义 RISC-V 指令中，在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗，从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

CLIPO 通过将对比学习机制引入策略优化，解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题，从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性，源于残差连接与因果掩码共同作用导致的梯度影响分布，表现为首尾信息优势与中间区域的结构化训练敌对，且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

该论文提出了一种利用非平衡 Wasserstein 重心进行字典学习的方法，以克服现有基于 Wasserstein 空间的方法在平衡光谱分布时模糊类别并牺牲抗噪性的问题，从而实现更鲁棒的高光谱图像无监督聚类。

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

该论文提出了一种结合隐式数值格式的神经算子方法，仅需利用少量数据（如 7% 的带宽）即可训练模型以高精度（99.87%）预测线性单自由度系统的振动频率响应曲线，从而在不依赖物理正则化损失函数的情况下实现了对系统动力学规律的隐式学习并显著提升了工程振动研究的效率。

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

该论文提出了一种名为“混合学习（Mashup Learning）”的方法，通过识别并合并与目标任务最相关的历史检查点来优化模型初始化，从而在多个基准测试中显著提升了下游任务的准确率并大幅缩短了微调所需的训练时间和步数。

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题，提出了一种名为 ReMix 的新方法，通过引入不可学习的路由权重确保各 LoRA 平等激活，并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计，从而在参数量相当的情况下显著提升了微调性能。

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

DT-BEHRT: Disease Trajectory-aware Transformer for Interpretable Patient Representation Learning

该论文提出了一种名为 DT-BEHRT 的图增强序列架构，通过显式建模器官系统内的诊断交互并捕捉异步疾病进展模式，结合基于轨迹的代码掩码与本体论祖先预测的预训练策略，实现了具有可解释性且符合临床推理的电子健康记录患者表征学习。

Deyi Li, Zijun Yao, Qi Xu, Muxuan Liang, Lingyao Li, Zijian Xu, Mei Liu2026-03-12🤖 cs.LG

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

该论文建立了基于随机镜像下降的自适应采样稳定性理论，提出了一种兼具最小化遗憾与有效统计推断（如置信区间覆盖）能力的正则化 EXP3 算法，并证明了其在面对少量恶意污染时的鲁棒性。

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik Khamaru2026-03-12📊 stat

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

本文提出了名为 ARCHE 的端到端学习图像压缩框架，该框架通过统一分层、空间和通道先验并结合自适应特征重校准与残差细化技术，在不依赖循环或 Transformer 组件的情况下，以 95M 参数和每图 222ms 的运行时间实现了比 Balle 基准、Minnen & Singh 模型及 VVC 内帧编码更优的率失真性能。

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras2026-03-12⚡ eess

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

该论文提出了一种名为自适应激活消除（AAC）的推理时框架，通过借鉴自适应噪声消除技术识别并抑制大语言模型中的幻觉神经激活，在无需微调或外部知识的情况下，于所有测试模型规模上显著提升了事实准确性，同时实现了零能力退化。

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

本文提出了一种“演员加速策略对偶平均（Actor-Accelerated PDA）”方法，通过引入策略网络近似解决连续动作空间中的优化子问题，在保持收敛性保证的同时显著提升了计算效率，并在多个基准测试中展现出优于 PPO 等主流基线的性能。

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong2026-03-12🤖 cs.LG

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

本文提出了一种结合拉普拉斯分位数离散化与泊松跳跃持续机制的混合隐马尔可夫模型，通过直接转移计数估计参数，在 SPY 数据实证中实现了分布保真度、时间结构及尾部覆盖率的综合最优表现，并扩展至多资产相关路径生成。

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-12💰 q-fin

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)2026-03-12🧬 q-bio

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

该论文研究了 $k$ 臂随机多臂老虎机中策略梯度的连续时间扩散近似，证明了在特定学习率下可实现对数级遗憾，并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。

Tor Lattimore2026-03-12📊 stat

cs.LG