MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN,该范式利用连续渐进神经网络(cPNN)使物联网边缘设备在无需中央协调器的情况下,仅在性能下降时自主请求并筛选同伴知识,从而有效应对数据流中的概念漂移、时间依赖及遗忘问题,并显著降低了通信开销。

Federico Giannini, Emanuele Della ValleWed, 11 Ma🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

本文提出了一种基于经验分布和距离函数子水平集构建模糊集的鲁棒马尔可夫决策过程(RMDP)框架,通过连接弱收敛与距离收敛,证明了该方法在有限样本下能提供高概率的出样本性能上界及收敛速率,并指出相比之下传统的经验 MDP 无法保证此类有限样本性能。

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

MAPLE 提出了一种将医疗过程奖励模型(Med-RPM)与测试时强化学习(TTRL)相结合的统一训练范式,通过以专家对齐的细粒度过程奖励取代不可靠的多数投票机制,有效提升了医疗大模型在复杂场景下的推理准确性与可靠性。

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning GuoWed, 11 Ma🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

本文提出了 SCALAR 框架,通过结合大语言模型规划与深度强化学习,利用双向反馈机制(包括轨迹分析和前沿检查点)迭代修正技能规范,从而显著提升了智能体在复杂环境(如 Craftax)中从语言指令到低级控制技能的落地能力与鲁棒性。

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia SycaraWed, 11 Ma🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

该论文提出了名为“质量优于数量”(QoQ)的系统化方法,通过利用影响函数量化训练样本对验证演示的损失降低贡献,并结合最大影响选取与轨迹聚合策略,自动筛选高质量演示数据,从而在模拟和真实环境中显著提升机器人策略性能。

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin LeeWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

该论文通过康特 - 阿什比好调节器定理,验证了因果不变超图基底中的持久观察者具备内部模型,进而推导出自然梯度下降作为唯一学习规则,并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系,同时指出了其关于收敛参数预测的模型依赖性。

Max ZhuravlevWed, 11 Ma🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI