Kernel Debiased Plug-in Estimation based on the Universal Least Favorable Submodel

本文提出了一种基于通用最不利子模型的核去偏插件估计量(ULFS-KDPE),该方法通过在再生核希尔伯特空间中构建自适应去偏流,无需显式推导或计算有效影响函数即可在标准正则条件下实现非参数模型中路径可微参数的半参数效率估计,并具备坚实的泛函分析基础与良好的数值稳定性。

Haiyi Chen, Yang Liu, Ivana Malenica2026-03-11🤖 cs.LG

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN,该范式利用连续渐进神经网络(cPNN)使物联网边缘设备在无需中央协调器的情况下,仅在性能下降时自主请求并筛选同伴知识,从而有效应对数据流中的概念漂移、时间依赖及遗忘问题,并显著降低了通信开销。

Federico Giannini, Emanuele Della Valle2026-03-11🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

本文提出了一种基于经验分布和距离函数子水平集构建模糊集的鲁棒马尔可夫决策过程(RMDP)框架,通过连接弱收敛与距离收敛,证明了该方法在有限样本下能提供高概率的出样本性能上界及收敛速率,并指出相比之下传统的经验 MDP 无法保证此类有限样本性能。

Sivaramakrishnan Ramani2026-03-11✓ Author reviewed 🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

MAPLE 提出了一种将医疗过程奖励模型(Med-RPM)与测试时强化学习(TTRL)相结合的统一训练范式,通过以专家对齐的细粒度过程奖励取代不可靠的多数投票机制,有效提升了医疗大模型在复杂场景下的推理准确性与可靠性。

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning Guo2026-03-11🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

本文提出了 SCALAR 框架,通过结合大语言模型规划与深度强化学习,利用双向反馈机制(包括轨迹分析和前沿检查点)迭代修正技能规范,从而显著提升了智能体在复杂环境(如 Craftax)中从语言指令到低级控制技能的落地能力与鲁棒性。

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI