UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

本文提出了一种基于多智能体强化学习(MARL)的框架,利用近端策略优化(PPO)算法在部分可观测环境下协调无人机群,以应对医疗物资配送中需求紧急性、位置分布及时间截止期等动态不确定性挑战,并通过真实地理数据验证了其在实时任务优先级排序与资源动态分配方面的优越性能。

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放(GR³)方法,通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准,在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设,发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效,因为与数学推理不同,道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架,旨在通过引入地理信息系统提供的语义上下文(如兴趣点)来辅助多标签音频识别,从而有效解决仅靠音频波形难以区分的声学混淆问题,并验证了该方法在性能上能与人类听辨水平对齐。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren2026-03-12⚡ eess

Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

该论文提出了一种名为 STA-GNN 的时空注意力图神经网络,通过动态建模工业控制系统中物理过程与通信模式的依赖关系,结合注意力机制实现可解释的异常检测,并引入保形预测策略以应对环境漂移和误报问题,从而提升关键基础设施安全监控系统的可靠性。

Kosti Koistinen, Kirsi Hellsten, Joni Herttuainen, Kimmo K. Kaski2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

该研究提出了一种结合奇异值分解(SVD)与浅层递归解码器(SHRED)神经网络的全数据驱动框架,仅需三个传感器的温度测量值即可准确重构磁流体动力学(MHD)系统的完整时空状态,从而为核聚变中的多物理场问题提供了一种适用于实时监测与控制的高效代理建模策略。

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG