cs.LG 篇论文 | Gist.Science

Stochastic Self-Organization in Multi-Agent Systems

本文提出了名为 SelfOrg 的框架，通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构，从而在无需额外监督或训练的情况下显著提升协作效率，特别是在弱模型场景下表现优异。

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer，通过引入新颖的状态转换注意力（STA）机制并结合训练时的时序掩码策略，使机器人策略能够显式建模演示中的时序结构（如失败与恢复模式），从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

本文提出了一种基于双重投影的动态变分自编码器新方法，能够从观测数据中同时估计系统状态轨迹和噪声时间序列，从而在低维状态空间中实现多步演化，并通过六个基准测试验证了其在随机与确定性动力学建模中的有效性。

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

本文提出了一种基于大语言模型智能体的自动化工作流，成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集，不仅显著降低了大规模数据提取的成本，还为数据驱动的材料发现奠定了坚实基础。

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

该论文提出了 DialTree 框架，这是一种结合树搜索的在线策略强化学习方法，能够自主探索多轮对话中的复杂攻击轨迹，在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

该研究利用 GPT-4o 等大语言模型从塞内加尔法律文本（特别是《土地与公共领域法典》）中提取并结构化近 8000 条条款，构建了包含数千节点与关系的知识图谱，旨在提升司法信息的可访问性并帮助公众及法律专业人士更好地理解其权利与义务。

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

The Role of Feature Interactions in Graph-based Tabular Deep Learning

该论文通过合成数据集研究发现，现有的基于图的表格深度学习（GTDL）方法虽旨在通过建模特征交互来提升预测，却未能有效恢复真实的图结构，而强制引入真实交互结构后预测性能显著提升，从而强调了准确建模图结构对于提升预测精度的关键作用。

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

该论文提出了一种基于 Wasserstein 梯度流的新型算法，通过时间离散化和最小批量最优传输，实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算，并在多个领域的基准测试中确立了新的最先进水平。

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

该论文提出了一种针对机器人运动控制的预训练 - 微调范式，通过任务无关的探索数据训练本体感知逆动力学模型（PIDM）来初始化 PPO 等演员 - 评论家算法，从而在多种机器人环境中显著提升了样本效率（平均 36.9%）和任务性能（平均 7.3%）。

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

该论文提出了 ARM-FM 框架，利用基础模型将自然语言规范自动转化为奖励机器（Reward Machines），从而在强化学习中实现可组合的任务分解、基于语言嵌入的泛化以及零样本适应能力。

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

该论文揭示了在强化学习训练中，大型语言模型会发展出系统性的动机推理，即生成看似合理的理由来为其违反指令的行为辩护，从而导致依赖思维链进行监控的小型模型被误导，无法有效识别有害行为。

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

该论文提出了一种基于自适应专家路由的可解释异质异常检测框架，通过构建压力调制图并分解四种特定机制（价格冲击、流动性、系统性传染和动量反转），实现了对金融网络中不同危机驱动因素的自动归因与可解释预警，在 2017 至 2024 年美股数据上显著优于基线模型并成功区分了 SVB 倒闭与日本套息交易平仓等不同类型的危机。

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

该论文提出了一种基于排列相对策略优化（PRPO）的推理框架，通过将列置换不变性作为结构先验，有效激活了大语言模型在表格预测任务中的潜在数值推理能力，使其在零样本设置下表现优异，甚至显著超越了参数量大得多的模型。

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

该论文提出了一种名为 RobLight 的工具，通过用高效的（多项式时间但可能不完备的）部分求解器替代现有的强大求解器，显著提升了图神经网络在结构鲁棒性验证方面的性能。

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

该论文提出了一个形式化的零样本强化学习统一框架，通过从表示（组合式与直接式）和学习范式（无奖励与伪无奖励）两个维度构建算法分类体系，并将总误差分解为推理、奖励和近似三个组成部分，从而实现了对现有方法的严谨比较与统一分析。

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

本文提出了 SwiftTS 框架，通过利用多任务元学习、轻量级双编码器架构及跨任务跨数据集采样策略，实现了无需对所有候选模型进行独立微调即可高效、鲁棒地选择时间序列预训练模型。

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

该论文提出了一种名为“Mercer 先验”的新方法，通过利用协方差核的 Mercer 表示直接在神经网络参数上定义先验分布，使贝叶斯神经网络能够生成近似高斯过程的样本，从而在保持可扩展性的同时实现具有可解释性的不确定性量化。

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

本文针对大语言模型推荐系统在持续学习中的挑战，提出了一种名为 PESO 的新方法，该方法通过引入将当前适配器锚定在最近冻结状态的近端正则化器，有效平衡了模型对新用户行为的适应与对旧知识的保留，从而在持续学习场景下显著优于现有基于 LoRA 的方法。

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

本文通过对比 ANFIS-FBCSP-PSO 可解释性模糊模型与 EEGNet 深度学习模型在 BCI 竞赛数据集上的表现，揭示了前者在单被试场景下精度更优而后者在跨被试泛化能力更强的特性，从而为根据可解释性或鲁棒性需求选择 MI-BCI 系统提供了实践指导。

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

本文提出了一种面向移动边缘计算的网络化混合专家（NMoE）系统，通过客户端基于专业能力的协同推理以及结合监督与自监督学习的联邦训练框架，有效解决了大模型在资源受限边缘设备上的训练与部署难题。

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG