Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
该论文提出了两种新型无模型强化学习算法(Q-EarlySettled-LowCost 和 FedQ-EarlySettled-LowCost),首次同时实现了近最优遗憾、关于状态与动作数量的线性预热成本以及对数级策略切换或通信开销,从而显著降低了单智能体及联邦强化学习中的实际部署代价。
2204 篇论文
该论文提出了两种新型无模型强化学习算法(Q-EarlySettled-LowCost 和 FedQ-EarlySettled-LowCost),首次同时实现了近最优遗憾、关于状态与动作数量的线性预热成本以及对数级策略切换或通信开销,从而显著降低了单智能体及联邦强化学习中的实际部署代价。
该论文提出了名为 ChannelTokenFormer 的 Transformer 框架,旨在通过统一处理通道依赖、异步采样和缺失值这三大现实挑战,显著提升多变量时间序列预测在复杂真实场景下的鲁棒性与准确性。
本文提出了一种名为“交互级联混合模型”(MIC)的标记多维霍克斯过程模型,通过联合刻画用户行为与多个信息级联间的复杂相互作用,在模拟信息传播及揭示社交网络活动方面展现出优于现有方法的性能。
该论文提出了一种名为 ConLID 的有监督对比学习方法,旨在通过学习域不变表示来解决低资源语言在单一领域数据(如《圣经》)上表现不佳的问题,从而在保持高资源语言性能的同时,显著提升了低资源语言在跨域数据上的语言识别准确率。
本文证明了在确定性条件下,带有动态平滑正则化的迭代重加权最小二乘法(IRLS)变体能够从任意初始化线性全局收敛至真实子空间,填补了该算法在鲁棒子空间恢复及非凸流形优化领域缺乏理论保证的空白,并将其应用扩展至仿射子空间估计与神经网络训练。
该论文在目标函数梯度满足全局-Hölder 连续性的参数化设定下,仅利用离散 Gronwall 不等式而非 Robbins-Siegmund 定理,推导并恢复了随机梯度下降(SGD)和随机重球法(SHB)在凸或非凸情形下最后迭代点的收敛速率,并证明了在特定条件下 SHB 能以高概率达到 的收敛界。
该研究系统评估了多种 DeepONet 架构在土力学固结问题中的应用,提出并验证了一种引入傅里叶特征的改进模型(Model 4),该模型在三维场景中实现了高达 1000 倍的速度提升,有效加速了不确定性量化并推动了科学机器学习在岩土工程中的集成应用。
本文提出了名为 LangevinFlow 的序列变分自编码器,通过在下潜空间引入包含惯性、阻尼及局部耦合振荡器参数化势函数的欠阻尼朗之万动力学,有效建模了神经群体的内在动力学与外部未观测影响,并在合成数据、神经潜变量基准测试及行为解码任务中展现出优于现有最先进方法的性能。
该论文提出了一种名为“潜在策略引导”(LPS)的方法,通过利用光流作为跨具身无关的动作表示来预训练世界模型,并结合目标具身的小规模演示数据进行微调与价值函数学习,从而在低数据场景下显著提升了机器人视觉运动策略的性能。
该论文提出了一种名为 MLES 的新方法,通过结合多模态大语言模型与进化搜索,利用视觉反馈驱动行为分析来自动生成透明、可验证且性能媲美传统强化学习算法的程序化控制策略。
本文提出了一种名为 CTRL 的元学习方法,通过结合跨域残差学习与自适应聚类技术,有效解决了多源小样本场景下的分布偏移与样本量差异问题,在提升整体预测精度的同时保留了各数据源间的异质性,并在包括瑞士庇护项目在内的多个数据集上显著优于现有基准。
该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法,旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。
该论文提出了一种轻量级且数据高效的图神经网络框架,通过融合射频集成电路领域知识的特征索引与器件终端图抽象,实现了跨拓扑结构的主动射频电路性能高精度预测,其平均相对误差仅为 3.45%,显著优于现有最先进方法。
该论文提出了一种通过迭代示例选择策略来增强大语言模型系统泛化能力的上下文学习方法,并在代数任务中验证了该方法结合显式推理指令能有效提升模型表现,且发现使用比测试分布更简单的示例往往能带来更好的泛化效果。
本文提出了一种基于全连接残差神经网络的代理模型,通过训练有限元模拟数据,实现了对高温超导磁体电流分布的快速准确预测,从而显著提升了大型 REBCO 螺线管磁体的智能设计效率。
本文提出并评估了多种基于排斥性节点(如行列式点过程和排斥过程)的蒙特卡洛积分方法以计算高维球面上的切片 Wasserstein 距离,并通过方差分析揭示了 UnifOrtho 估计量在大维数下的优势,最终建议在小维数场景使用随机拟蒙特卡洛法,而在大维数场景使用 UnifOrtho 方法。
本文介绍了机器人控制堆栈(RCS),这是一个专为支持大规模通用策略(如 VLA)研究而设计的轻量级生态系统,它通过模块化分层架构统一了仿真与物理机器人接口,有效解决了传统框架在机器人学习工作流中的瓶颈问题,并验证了其在提升策略性能及促进虚实迁移方面的有效性。
该论文提出了一种名为“Kuramoto 取向扩散模型”的生成方法,通过利用生物启发的 Kuramoto 同步动力学在周期性域上构建分数模型,有效解决了指纹和纹理等富含方向性信息的图像生成难题,显著提升了此类数据的生成质量。
本文提出了 ZeroSiam,一种基于非对称孪生架构的高效方法,通过非对称散度对齐机制在无需额外开销的情况下有效防止测试时熵最小化过程中的模型坍塌,从而在视觉适应和大语言模型推理任务中实现更稳定且优越的性能。
该论文提出了一种名为通用策略组合(GPC)的免训练方法,通过凸组合多个预训练扩散或流匹配策略的分布分数,在无需额外模型训练的情况下显著提升了机器人控制性能与适应性。