cs.LG 篇论文 | Gist.Science

Structured quantum learning via em algorithm for Boltzmann machines

该论文提出了一种基于信息几何的量子 EM 算法，通过在混合架构的半量子受限玻尔兹曼机中规避基于梯度的优化，成功克服了训练中的 barren plateau 问题，实现了比梯度下降更稳定且可扩展的量子生成建模。

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

本文针对 DeepSeek 提出的无评论员强化学习算法 GRPO，通过理论分析揭示其梯度估计偏差并验证简化变体的有效性，进而提出了轨迹级重要性校正的 TIC-GRPO 算法，该算法在保持无评论员结构的同时实现了更快的收敛速度，并在数学推理和代码任务中展现出优越性能。

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

该研究针对新生儿癫痫自动检测中机器学习模型评估标准不一的问题，通过系统分析各类指标与专家一致性测试，提出了一套包含平衡指标、敏感性特异性等关键参数及多评委图灵测试的严谨评估框架，以推动该领域 AI 模型的临床可靠应用。

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

本文首次系统研究了针对大语言模型微调过程中出现的“涌现性不对齐”现象的防御机制，通过评估四种训练正则化干预措施，发现利用对齐与不对齐模型之间的困惑度差距来筛选并混入通用指令微调数据，是防止模型在特定领域微调后产生广泛有害行为且保持任务性能的最佳方案。

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

该研究提出了一种快速评估大语言模型排名系统鲁棒性的方法，发现仅移除极少量（如 0.003%）的偏好数据即可改变 Chatbot Arena 等平台的榜首模型，且专家标注的 MT-bench 排名比众包或 LLM 裁判的排名更具鲁棒性。

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

该研究全面评估了量化技术对大语言模型偏见的影响，发现虽然量化能降低毒性且不显著改变情感倾向，但在激进压缩下会轻微加剧刻板印象和不公平性，因此强调在实际应用中需平衡效率与伦理考量。

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

本文全面综述了多智能体强化学习在智能交通系统中的应用，构建了涵盖协调模型与算法的分类体系，系统分析了其在交通信号控制、自动驾驶协调等关键领域的实践，并探讨了仿真平台、核心挑战及未来发展方向。

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

本文从几何视角出发，利用图里奇曲率揭示了基于图神经网络的 SAT 求解器在难解实例上性能下降的根本原因在于负曲率导致的过度挤压效应，并证实了曲率可作为预测问题复杂度与泛化误差的有效指标。

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

本文提出了一种基于非平衡最优传输的对齐模型，通过将声学与语言表征的对齐视为检测问题，有效解决了知识迁移中存在的结构不对称及分布不匹配挑战，从而显著提升了自动语音识别（ASR）的性能。

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

本文提出了 AttnBoost 框架，通过在梯度提升过程中集成特征级注意力机制，实现了对零售供应链销售需求的更精准预测与可解释性分析，从而有效应对数据噪声和消费者行为变化带来的挑战。

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

本文利用持久 GLMY 同调理论分析储层拓扑结构，发现其一维同调群与性能密切相关，并通过修改最小代表循环提出了优化储层结构的方法，实验验证了该方法能有效提升储层性能。

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

本文提出了名为 TabStruct 的综合评估基准，通过引入无需真实因果结构先验的“全局效用”指标，实现了对 13 种表格生成器在 29 个数据集上结构保真度与传统评估维度的联合量化分析。

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

本文提出了 BabyHuBERT，一个基于 1.3 万小时多语言儿童录音训练的自监督语音模型，其在区分目标儿童与不同说话者类型的任务中显著优于现有成人语音模型，有效解决了儿童中心长时录音分析中的语言差异挑战。

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

本文提出了一种结合生成式建模与能量一致阻抗控制的“基于扩散的阻抗学习”框架，通过 Transformer 扩散模型重构零力轨迹并在线调节阻抗参数，使机器人在仅用少量样本训练后，能在实时力控下实现接触丰富任务的高精度操作与泛化。

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

本文提出了一种名为 CR-PPO 的强化学习算法，通过引入结合香农熵与不平衡度的自调节复杂度项替代传统熵正则化，在保持策略有益随机性的同时降低了对超参数调整的依赖，从而显著提升了 PPO 算法的鲁棒性。

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

本文提出了名为 Noise-to-Notes (N2N) 的新框架，将自动鼓乐转录重新定义为基于扩散模型的生成式任务，通过引入退火伪 Huber 损失函数解决离散与连续值联合优化难题，并结合音乐基础模型特征显著提升了跨域鲁棒性，在多个基准测试中取得了最先进性能。

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

本文提出了 BridgeDrive，一种基于锚点引导的扩散桥策略，通过建立前向与反向过程理论一致的轨迹规划框架，在保持实时性的同时显著提升了自动驾驶闭环场景下的规划性能。

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

该论文通过受控实验与机制分析揭示，语言模型在硬蒸馏中发生的“潜意识学习”（即隐藏偏见转移）并非源于全局令牌纠缠，而是由少数关键的分歧令牌驱动，且这种转移主要依赖于早期网络层，同时对提示词等微小变化极为脆弱。

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

本文提出了 BeyondBench 框架，通过算法化动态生成数学上可验证的难题来消除训练数据污染，对 101 个语言模型进行了涵盖不同难度与规模的抗污染推理能力评估，揭示了当前模型在复杂算法问题上的显著推理缺陷。

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

该论文提出了 SphereAR，一种通过利用超球面 VAE 将自回归生成过程中的输入输出约束在固定半径超球面上，从而解决潜在变量方差异质性问题并消除方差崩溃的图像生成方法，其在 ImageNet 上实现了超越扩散模型和掩码生成模型的自回归新纪录。

Guolin Ke, Hui Xue2026-03-06💻 cs