Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

该论文通过建立基于 Vlasov-Poisson 系统的动力学场论框架推导了强流带电粒子束的朗缪尔波色散关系,并利用 Prometheus 无监督学习模型验证了等离子体频率、异常束展宽及弗里德尔振荡等集体振荡特征。

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

该研究提出了一种将肌肉协同先验嵌入强化学习的生理信息框架,通过低维协同基约束控制,显著提升了预测性肌骨步态模拟在不同速度、坡度和地形下的生物力学保真度与泛化能力。

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

本文提出了 VERI-DPO 框架,通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化(DPO)技术,显著提升了临床摘要的忠实度,将不支持的声明率从 10.7% 大幅降低至 1.9%。

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

该论文提出了一种将图注意力自编码器与大型语言模型(GPT-4o-mini)相结合的轻量级混合框架,通过利用结构推理对 LLM 生成数据进行去噪并优化蒙特卡洛树搜索,在资源受限条件下实现了在亚马逊棋游戏中超越基线及教师模型的高性能决策。

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

该论文提出了名为 IH-Challenge 的强化学习训练数据集,旨在解决大语言模型指令层级冲突的鲁棒性难题,通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力,并开源了该数据集以推动相关研究。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

本文提出了一种基于多智能体强化学习(MARL)的框架,利用近端策略优化(PPO)算法在部分可观测环境下协调无人机群,以应对医疗物资配送中需求紧急性、位置分布及时间截止期等动态不确定性挑战,并通过真实地理数据验证了其在实时任务优先级排序与资源动态分配方面的优越性能。

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放(GR³)方法,通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准,在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设,发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效,因为与数学推理不同,道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI