cs.LG 篇论文 | Gist.Science

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN，该范式利用连续渐进神经网络（cPNN）使物联网边缘设备在无需中央协调器的情况下，仅在性能下降时自主请求并筛选同伴知识，从而有效应对数据流中的概念漂移、时间依赖及遗忘问题，并显著降低了通信开销。

Federico Giannini, Emanuele Della ValleWed, 11 Ma🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

本文提出了一种基于经验分布和距离函数子水平集构建模糊集的鲁棒马尔可夫决策过程（RMDP）框架，通过连接弱收敛与距离收敛，证明了该方法在有限样本下能提供高概率的出样本性能上界及收敛速率，并指出相比之下传统的经验 MDP 无法保证此类有限样本性能。

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

MAPLE 提出了一种将医疗过程奖励模型（Med-RPM）与测试时强化学习（TTRL）相结合的统一训练范式，通过以专家对齐的细粒度过程奖励取代不可靠的多数投票机制，有效提升了医疗大模型在复杂场景下的推理准确性与可靠性。

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning GuoWed, 11 Ma🤖 cs.LG

Statistical Inference via Generative Models: Flow Matching and Causal Inference

本书将生成式人工智能重新诠释为统计框架下的高维概率分布非参数学习方法，以流匹配为核心，通过正交化和交叉拟合等技术，将缺失值填补、反事实分析及分布动力学等任务转化为可解释且具备统计推断有效性的科学问题。

Shinto EguchiWed, 11 Ma🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

该论文提出了一种名为“归一化流匹配”（NFM）的新方法，通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合，从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

本文提出了一种针对卷积神经网络（CNN）的精确且架构感知的平坦度度量方法，通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解，有效解决了现有方法忽略 CNN 几何结构的问题，从而能够更准确地评估和预测模型的泛化性能。

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency

本文提出了 CALIPER，一种仅依赖数据、与检测器和模型无关的测试方法，通过利用动态系统流中的状态依赖性来估算概念漂移后足以进行稳定重训练的数据规模，从而填补了漂移检测与数据充分性适应之间的空白。

Ren Fujiwara, Yasuko Matsubara, Yasushi SakuraiWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本文提出了名为 EPIC 的硬件与物理协同引导的分布式科学机器学习框架，通过端侧轻量编码与中心侧物理感知解码相结合，在显著降低通信延迟和能耗的同时，有效提升了全波形反演等任务的物理保真度与重建精度。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

本文提出了 SCALAR 框架，通过结合大语言模型规划与深度强化学习，利用双向反馈机制（包括轨迹分析和前沿检查点）迭代修正技能规范，从而显著提升了智能体在复杂环境（如 Craftax）中从语言指令到低级控制技能的落地能力与鲁棒性。

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia SycaraWed, 11 Ma🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统，通过引入灵活的资源隔离机制（Flex-Mem 和 Flex-NPU）实现内存与 NPU 在保护模式与未保护模式间的高效切换，并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器，在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理，它利用模型上下文协议（MCP）对远程患者监测数据进行多步推理和情境化分诊，在紧急敏感性等关键指标上超越了人类临床医生，同时以极低的成本实现了可扩展的自动化监测，从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

本文提出了 Sim2Act 框架，通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略，有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题，从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

该论文提出了名为“质量优于数量”（QoQ）的系统化方法，通过利用影响函数量化训练样本对验证演示的损失降低贡献，并结合最大影响选取与轨迹聚合策略，自动筛选高质量演示数据，从而在模拟和真实环境中显著提升机器人策略性能。

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin LeeWed, 11 Ma🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

本文提出了一种融合改进维纳过程退化模型与两阶段自适应主动学习采样策略的在线可靠性预测框架，有效解决了卫星电子系统因数据稀缺、工况多变及个体差异导致的预测难题，显著提升了预测精度并降低了数据需求。

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying RenWed, 11 Ma🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

该论文提出了一种名为 DynaME 的新型混合框架，通过将概念漂移重新定义为“周期性重现”和“新兴”两类，并分别采用动态历史模式专家委员会与高不确定性下的通用专家策略，有效解决了在线时间序列预测中模型难以同时适应这两种漂移的问题。

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo YuWed, 11 Ma🤖 cs.LG

Learning Adaptive LLM Decoding

该论文提出了一种基于强化学习的自适应 LLM 解码方法，通过训练轻量级适配器在序列级和 token 级动态选择采样策略，从而在固定计算预算下显著提升了数学和编程任务的准确率。

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya GhaiWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

该论文通过康特 - 阿什比好调节器定理，验证了因果不变超图基底中的持久观察者具备内部模型，进而推导出自然梯度下降作为唯一学习规则，并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系，同时指出了其关于收敛参数预测的模型依赖性。

Max ZhuravlevWed, 11 Ma🤖 cs.LG

cs.LG