MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence
本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN,该范式利用连续渐进神经网络(cPNN)使物联网边缘设备在无需中央协调器的情况下,仅在性能下降时自主请求并筛选同伴知识,从而有效应对数据流中的概念漂移、时间依赖及遗忘问题,并显著降低了通信开销。
2288 篇论文
本文提出了一种基于维果茨基社会文化理论的“相互辅助学习”范式 MAcPNN,该范式利用连续渐进神经网络(cPNN)使物联网边缘设备在无需中央协调器的情况下,仅在性能下降时自主请求并筛选同伴知识,从而有效应对数据流中的概念漂移、时间依赖及遗忘问题,并显著降低了通信开销。
本文提出了一种基于经验分布和距离函数子水平集构建模糊集的鲁棒马尔可夫决策过程(RMDP)框架,通过连接弱收敛与距离收敛,证明了该方法在有限样本下能提供高概率的出样本性能上界及收敛速率,并指出相比之下传统的经验 MDP 无法保证此类有限样本性能。
MAPLE 提出了一种将医疗过程奖励模型(Med-RPM)与测试时强化学习(TTRL)相结合的统一训练范式,通过以专家对齐的细粒度过程奖励取代不可靠的多数投票机制,有效提升了医疗大模型在复杂场景下的推理准确性与可靠性。
本书将生成式人工智能重新诠释为统计框架下的高维概率分布非参数学习方法,以流匹配为核心,通过正交化和交叉拟合等技术,将缺失值填补、反事实分析及分布动力学等任务转化为可解释且具备统计推断有效性的科学问题。
该论文提出了一种名为“归一化流匹配”(NFM)的新方法,通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合,从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。
本文提出了一种针对卷积神经网络(CNN)的精确且架构感知的平坦度度量方法,通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解,有效解决了现有方法忽略 CNN 几何结构的问题,从而能够更准确地评估和预测模型的泛化性能。
本文提出了 CALIPER,一种仅依赖数据、与检测器和模型无关的测试方法,通过利用动态系统流中的状态依赖性来估算概念漂移后足以进行稳定重训练的数据规模,从而填补了漂移检测与数据充分性适应之间的空白。
本文提出了名为 EPIC 的硬件与物理协同引导的分布式科学机器学习框架,通过端侧轻量编码与中心侧物理感知解码相结合,在显著降低通信延迟和能耗的同时,有效提升了全波形反演等任务的物理保真度与重建精度。
本文提出了 SCALAR 框架,通过结合大语言模型规划与深度强化学习,利用双向反馈机制(包括轨迹分析和前沿检查点)迭代修正技能规范,从而显著提升了智能体在复杂环境(如 Craftax)中从语言指令到低级控制技能的落地能力与鲁棒性。
FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。
该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。
本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。
该论文提出了名为“质量优于数量”(QoQ)的系统化方法,通过利用影响函数量化训练样本对验证演示的损失降低贡献,并结合最大影响选取与轨迹聚合策略,自动筛选高质量演示数据,从而在模拟和真实环境中显著提升机器人策略性能。
本文提出了一种融合改进维纳过程退化模型与两阶段自适应主动学习采样策略的在线可靠性预测框架,有效解决了卫星电子系统因数据稀缺、工况多变及个体差异导致的预测难题,显著提升了预测精度并降低了数据需求。
该论文提出了一种名为 DynaME 的新型混合框架,通过将概念漂移重新定义为“周期性重现”和“新兴”两类,并分别采用动态历史模式专家委员会与高不确定性下的通用专家策略,有效解决了在线时间序列预测中模型难以同时适应这两种漂移的问题。
该论文提出了一种基于强化学习的自适应 LLM 解码方法,通过训练轻量级适配器在序列级和 token 级动态选择采样策略,从而在固定计算预算下显著提升了数学和编程任务的准确率。
该论文通过康特 - 阿什比好调节器定理,验证了因果不变超图基底中的持久观察者具备内部模型,进而推导出自然梯度下降作为唯一学习规则,并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系,同时指出了其关于收敛参数预测的模型依赖性。
该论文提出了一种名为“排他性自注意力”(XSA)的简单改进机制,通过限制注意力仅关注与自身向量正交的信息来排除位置自信息,从而在语言建模任务中实现了随模型规模和序列长度增加而显著提升的性能。
本文提出了一种基于近端策略优化(PPO)的混合优化框架,通过结合可重构智能表面(RIS)与语义通信,并联合优化卸载比例、语义符号数量及 RIS 相位偏移,显著降低了动态车联网环境下的端到端时延。
该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。