cs.LG 篇论文 | Gist.Science

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

该论文通过建立基于 Vlasov-Poisson 系统的动力学场论框架推导了强流带电粒子束的朗缪尔波色散关系，并利用 Prometheus 无监督学习模型验证了等离子体频率、异常束展宽及弗里德尔振荡等集体振荡特征。

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

该研究提出了一种将肌肉协同先验嵌入强化学习的生理信息框架，通过低维协同基约束控制，显著提升了预测性肌骨步态模拟在不同速度、坡度和地形下的生物力学保真度与泛化能力。

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

该论文研究了过参数化线性模型中双空间预条件梯度下降（涵盖归一化梯度下降、梯度裁剪和 Adam 等优化器）的收敛性，证明了其迭代序列总能收敛至完美拟合数据的解，并揭示了各向同性预条件器下的隐式偏差特性及其与标准梯度下降解的等价关系。

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

本文提出了名为 JEDI 的层次化模型，该模型通过在循环神经网络权重上学习共享嵌入空间，实现了从有限且嘈杂的神经记录中跨任务、跨情境地联合推断和统一建模神经动力学，从而成功揭示了大脑灵活性的潜在机制。

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

本文提出了一种基于最近邻距离比率的通用内在维度估计器，该方法不仅计算简单且无需分布假设，还从理论上证明了其收敛性，并在基准流形和真实数据集上取得了最先进的性能。

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

本文提出了 VERI-DPO 框架，通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化（DPO）技术，显著提升了临床摘要的忠实度，将不支持的声明率从 10.7% 大幅降低至 1.9%。

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

本文提出了一种结合 t-积代数与张量列车低阶核心结构的新型张量网络分解——管状张量列车（TTT），并介绍了其两种计算策略、误差界以及在图像和视频压缩、张量补全和高光谱成像等任务中的实际应用。

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

该论文提出了一种将图注意力自编码器与大型语言模型（GPT-4o-mini）相结合的轻量级混合框架，通过利用结构推理对 LLM 生成数据进行去噪并优化蒙特卡洛树搜索，在资源受限条件下实现了在亚马逊棋游戏中超越基线及教师模型的高性能决策。

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

该论文提出了名为 IH-Challenge 的强化学习训练数据集，旨在解决大语言模型指令层级冲突的鲁棒性难题，通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力，并开源了该数据集以推动相关研究。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

World Model for Battery Degradation Prediction Under Non-Stationary Aging

本文提出了一种基于世界模型的锂离子电池退化预测框架，通过将循环数据编码为潜在状态并学习动态演化来生成未来轨迹，且引入单粒子模型约束显著提升了退化拐点处的预测精度。

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

本文提出了一种基于多智能体强化学习（MARL）的框架，利用近端策略优化（PPO）算法在部分可观测环境下协调无人机群，以应对医疗物资配送中需求紧急性、位置分布及时间截止期等动态不确定性挑战，并通过真实地理数据验证了其在实时任务优先级排序与资源动态分配方面的优越性能。

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放（GR³）方法，通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准，在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

该论文提出了名为 SCORE 的新型深度神经网络架构，它通过 ODE 启发的收缩性循环更新机制替代传统的层堆叠，在共享权重减少参数量的同时，利用离散迭代显著提升了多种模型（如图神经网络、MLP 和 Transformer）的收敛速度与训练效率。

Guillaume Godin2026-03-12✓ Author reviewed ⓘ🤖 cs.LG

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

该论文提出了一种基于强化学习的方法，通过引入百分比改进奖励、帧堆叠和限制领域信息等策略，自动学习集群调度器评分函数的权重，从而在无需专家干预的情况下显著提升作业端到端性能。

Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker2026-03-12🤖 cs.LG

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

该论文提出了一种基于有向二分图的结构化机器学习框架，利用中美股市交易时间差构建稀疏可解释的特征选择层，研究发现美国收盘价至收盘价的收益率对中国日内收益率具有显著预测力，而反向影响则十分有限。

Jing Liu, Maria Grith, Xiaowen Dong, Mihai Cucuringu2026-03-12💰 q-fin

Quantization Robustness of Monotone Operator Equilibrium Networks

该论文分析了单调算子平衡网络在低精度硬件上的量化鲁棒性，证明了当权重谱扰动小于单调性裕度时收敛性得以保证，并通过实验验证了位宽阈值及量化感知训练在恢复四比特收敛性方面的有效性。

James Li, Philip H. W. Leong, Thomas Chaffey2026-03-12⚡ eess

Riemannian Geometry-Preserving Variational Autoencoder for MI-BCI Data Augmentation

该论文提出了一种保持黎曼几何特性的变分自编码器（RGP-VAE），用于生成符合对称正定性质的合成脑电协方差矩阵，从而在保留几何结构的同时实现电机想象脑机接口（MI-BCI）的数据增强与跨被试特征学习。

Viktorija Polaka, Ivo Pascal de Jong, Andreea Ioana Sburlea2026-03-12🤖 cs.LG

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

该论文从统计决策理论视角出发，证明 Transformer 能够通过上下文学习近似贝叶斯最优统计量，其机制并非简单的相似性匹配或固定核平滑，而是根据任务几何特性（如线性均值偏移或非线性方差估计）动态构建自适应统计估计器。

Faris Chaudhry, Siddhant Gadkari2026-03-12🤖 cs.LG

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

本文提出了 HAPEns，一种针对表格数据的硬件感知事后集成方法，通过在预测性能与硬件资源消耗之间构建帕累托前沿，实现了在 83 个数据集上显著优于现有基线的性能与部署成本权衡。

Jannis Maier, Lennart Purucker2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设，发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效，因为与数学推理不同，道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI