cs.LG 篇论文 | Gist.Science

GDR-learners: Orthogonal Learning of Generative Models for Potential Outcomes

本文提出了一类名为 GDR-learners 的通用生成式 Neyman 正交（双重稳健）学习器，该框架可灵活结合条件归一化流、生成对抗网络、变分自编码器及扩散模型等多种先进深度生成模型，以实现对潜在结果条件分布的估计，并具备准 Oracle 效率、速率双重稳健性及渐近最优性等理论优势。

Valentyn Melnychuk, Stefan Feuerriegel2026-03-10🤖 cs.LG

CLAD-Net: Continual Activity Recognition in Multi-Sensor Wearable Systems

本文提出了 CLAD-Net 框架，通过结合自监督 Transformer 作为长期记忆与基于知识蒸馏的监督 CNN，有效解决了多传感器可穿戴系统在跨主体连续学习中的灾难性遗忘问题，并在标签稀缺场景下实现了高精度且低遗忘的活动识别。

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-10🤖 cs.LG

Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Reinforcement Learning

本文提出了生成式进化元求解器（GEMS），这是一种无需代理的框架，它利用潜在锚点和单一生成器替代显式策略种群，在保留博弈论保证的同时显著降低了计算与内存开销，从而实现了可扩展的多智能体强化学习。

Alakh Sharma, Gaurish Trivedi, Kartikey Singh Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa2026-03-10🤖 cs.LG

FS-KAN: Permutation Equivariant Kolmogorov-Arnold Networks via Function Sharing

本文提出了 FS-KAN，一种通过函数共享机制构建的具有任意置换对称性的等变 Kolmogorov-Arnold 网络框架，该框架在理论上保持了与传统参数共享网络相当的表达能力，并在实证中展现出比现有方法更优越的数据效率和可解释性。

Ran Elbaz, Guy Bar-Shalom, Yam Eitan, Fabrizio Frasca, Haggai Maron2026-03-10🤖 cs.LG

Overlap-Adaptive Regularization for Conditional Average Treatment Effect Estimation

本文提出了一种名为重叠自适应正则化（OAR）的新方法，通过根据重叠权重动态调整正则化强度，显著提升了现有元学习器在低重叠区域估计条件平均处理效应（CATE）的性能，并提供了保持 Neyman 正交性的去偏版本以确保推断的稳健性。

Valentyn Melnychuk, Dennis Frauen, Jonas Schweisthal, Stefan Feuerriegel2026-03-10🤖 cs.LG

Cold-Start Active Correlation Clustering

该论文针对缺乏初始成对相似性信息的冷启动场景，提出了一种通过鼓励多样性来实现成本高效查询的覆盖感知主动关联聚类方法，并通过实验验证了其有效性。

Linus Aronsson, Han Wu, Morteza Haghir Chehreghani2026-03-10🤖 cs.LG

Feedback Control for Small Budget Pacing

该论文提出了一种结合分桶滞回与比例反馈的反馈控制方法，通过 principled 的参数选择框架显著提升了在线广告（尤其是小预算活动）的预算执行精度与交付稳定性。

Sreeja Apparaju, Yichuan Niu, Xixi Qi2026-03-10🤖 cs.LG

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”（Misevolution）概念，揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险，从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

本文提出了一种名为 DRQ-learner 的新型元学习器，用于在马尔可夫决策过程中基于观测数据估计个体化潜在结果，该学习器具备双重稳健性、Neyman 正交性及拟 Oracle 效率等理论优势，且能灵活结合任意机器学习模型处理离散或连续状态空间，并在实验中表现优于现有基线方法。

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel2026-03-10🤖 cs.LG

Privately Estimating Black-Box Statistics

本文提出了一种在统计效率与 oracle 效率之间进行权衡的差分隐私方案，用于估计任意黑盒函数的统计量，并证明了该方案近乎最优。

Günter F. Steinke, Thomas Steinke2026-03-10🤖 cs.LG

Stochastic Self-Organization in Multi-Agent Systems

本文提出了名为 SelfOrg 的框架，通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构，从而在无需额外监督或训练的情况下显著提升协作效率，特别是在弱模型场景下表现优异。

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer，通过引入新颖的状态转换注意力（STA）机制并结合训练时的时序掩码策略，使机器人策略能够显式建模演示中的时序结构（如失败与恢复模式），从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

本文提出了一种基于双重投影的动态变分自编码器新方法，能够从观测数据中同时估计系统状态轨迹和噪声时间序列，从而在低维状态空间中实现多步演化，并通过六个基准测试验证了其在随机与确定性动力学建模中的有效性。

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

本文提出了一种基于大语言模型智能体的自动化工作流，成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集，不仅显著降低了大规模数据提取的成本，还为数据驱动的材料发现奠定了坚实基础。

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

该论文提出了 DialTree 框架，这是一种结合树搜索的在线策略强化学习方法，能够自主探索多轮对话中的复杂攻击轨迹，在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

该研究利用 GPT-4o 等大语言模型从塞内加尔法律文本（特别是《土地与公共领域法典》）中提取并结构化近 8000 条条款，构建了包含数千节点与关系的知识图谱，旨在提升司法信息的可访问性并帮助公众及法律专业人士更好地理解其权利与义务。

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

The Role of Feature Interactions in Graph-based Tabular Deep Learning

该论文通过合成数据集研究发现，现有的基于图的表格深度学习（GTDL）方法虽旨在通过建模特征交互来提升预测，却未能有效恢复真实的图结构，而强制引入真实交互结构后预测性能显著提升，从而强调了准确建模图结构对于提升预测精度的关键作用。

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

该论文提出了一种基于 Wasserstein 梯度流的新型算法，通过时间离散化和最小批量最优传输，实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算，并在多个领域的基准测试中确立了新的最先进水平。

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

该论文提出了一种针对机器人运动控制的预训练 - 微调范式，通过任务无关的探索数据训练本体感知逆动力学模型（PIDM）来初始化 PPO 等演员 - 评论家算法，从而在多种机器人环境中显著提升了样本效率（平均 36.9%）和任务性能（平均 7.3%）。

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

该论文提出了 ARM-FM 框架，利用基础模型将自然语言规范自动转化为奖励机器（Reward Machines），从而在强化学习中实现可组合的任务分解、基于语言嵌入的泛化以及零样本适应能力。

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG