Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

该论文在目标函数梯度满足全局γ\gamma-Hölder 连续性的参数化设定下,仅利用离散 Gronwall 不等式而非 Robbins-Siegmund 定理,推导并恢复了随机梯度下降(SGD)和随机重球法(SHB)在凸或非凸情形下最后迭代点的收敛速率,并证明了在特定条件下 SHB 能以高概率达到 O(tmax(p1,2p+1)log2tδ)O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta}) 的收敛界。

Marcel Hudiani2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

本文提出了名为 LangevinFlow 的序列变分自编码器,通过在下潜空间引入包含惯性、阻尼及局部耦合振荡器参数化势函数的欠阻尼朗之万动力学,有效建模了神经群体的内在动力学与外部未观测影响,并在合成数据、神经潜变量基准测试及行为解码任务中展现出优于现有最先进方法的性能。

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

本文提出了一种名为 CTRL 的元学习方法,通过结合跨域残差学习与自适应聚类技术,有效解决了多源小样本场景下的分布偏移与样本量差异问题,在提升整体预测精度的同时保留了各数据源间的异质性,并在包括瑞士庇护项目在内的多个数据集上显著优于现有基准。

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

该论文提出了一种通过迭代示例选择策略来增强大语言模型系统泛化能力的上下文学习方法,并在代数任务中验证了该方法结合显式推理指令能有效提升模型表现,且发现使用比测试分布更简单的示例往往能带来更好的泛化效果。

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG