GDR-learners: Orthogonal Learning of Generative Models for Potential Outcomes

本文提出了一类名为 GDR-learners 的通用生成式 Neyman 正交(双重稳健)学习器,该框架可灵活结合条件归一化流、生成对抗网络、变分自编码器及扩散模型等多种先进深度生成模型,以实现对潜在结果条件分布的估计,并具备准 Oracle 效率、速率双重稳健性及渐近最优性等理论优势。

Valentyn Melnychuk, Stefan Feuerriegel2026-03-10🤖 cs.LG

CLAD-Net: Continual Activity Recognition in Multi-Sensor Wearable Systems

本文提出了 CLAD-Net 框架,通过结合自监督 Transformer 作为长期记忆与基于知识蒸馏的监督 CNN,有效解决了多传感器可穿戴系统在跨主体连续学习中的灾难性遗忘问题,并在标签稀缺场景下实现了高精度且低遗忘的活动识别。

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-10🤖 cs.LG

Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Reinforcement Learning

本文提出了生成式进化元求解器(GEMS),这是一种无需代理的框架,它利用潜在锚点和单一生成器替代显式策略种群,在保留博弈论保证的同时显著降低了计算与内存开销,从而实现了可扩展的多智能体强化学习。

Alakh Sharma, Gaurish Trivedi, Kartikey Singh Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa2026-03-10🤖 cs.LG

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”(Misevolution)概念,揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险,从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

本文提出了一种名为 DRQ-learner 的新型元学习器,用于在马尔可夫决策过程中基于观测数据估计个体化潜在结果,该学习器具备双重稳健性、Neyman 正交性及拟 Oracle 效率等理论优势,且能灵活结合任意机器学习模型处理离散或连续状态空间,并在实验中表现优于现有基线方法。

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG