Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
本文提出了一种结合深度强化学习与有界极值搜索的混合控制方法,利用前者处理多参数系统的高效学习能力与后者应对时变不确定性的鲁棒性,显著提升了非线性时变系统的控制性能。
2231 篇论文
本文提出了一种结合深度强化学习与有界极值搜索的混合控制方法,利用前者处理多参数系统的高效学习能力与后者应对时变不确定性的鲁棒性,显著提升了非线性时变系统的控制性能。
该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。
本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。
该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战,首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架,在多个数据集的含噪标签域泛化任务中取得了最先进性能。
该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。
该论文提出了一种名为 REAP 的基于路由器门控值与专家激活范数的剪枝方法,证明在生成式任务中,相较于专家合并,剪枝策略能避免路由控制丢失带来的不可约误差,从而在大规模稀疏混合专家(SMoE)模型压缩中实现更优甚至无损的性能。
本文提出了名为 RL-100 的实世界机器人强化学习框架,该框架基于扩散视觉运动策略,通过统一模仿学习与强化学习并结合一致性蒸馏技术,在八个多样化的真实机器人任务中实现了 100% 的成功率,展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。
该论文针对将思维链推理引入基于人类偏好的生成式建模时面临的优化挑战,提出了一种名为 Bradley-Terry 策略优化(BTPO)的新方法,通过推导一致的蒙特卡洛梯度估计器,实现了在不可验证任务中稳定且高效的模型训练,并在多个基准测试中优于现有启发式方法。
该论文提出了一种名为 AffPCL 的新型个性化协同学习框架,通过精心设计的偏差校正与重要性校正机制,在无需预先知晓系统异质性水平的情况下,实现了从同质环境下的线性加速到异质环境下的独立学习基线之间的自适应平滑过渡,并揭示了即使在高度异质条件下协作仍能获得线性加速的新见解。
本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。
本文提出了 GraphKeeper,一种通过知识解耦与保留机制解决图领域增量学习中嵌入偏移和决策边界偏差问题的新方法,在实现 negligible 遗忘的同时显著提升了现有图基础模型在多领域场景下的性能。
该论文提出了一种基于结构化正则化、鲁棒预处理和高效优化的多类校准方法,通过扩展逻辑回归参数化重校准函数,有效解决了复杂模型在有限校准数据下的过拟合问题,从而显著提升了校准性能并提供了开源实现。
本文提出了 LTSV 方法,通过结合上下文微调与时间块聚合技术,在时间序列基础模型上实现了兼具高效性、准确性及时间依赖捕捉能力的数据估值。
本文提出了一种基于时间序列基础模型(TSFM)的上下文学习方法,通过无需微调或训练传统分类模型即可利用振动数据中的频域参考信号来评估伺服冲压机轴承的健康状态,从而展示了其在不同工况下的有效性并推动了向模型即服务(MaaS)或软件即服务(SaaS)模式的智能运维系统发展。
该论文提出了一种名为“周期性异步”的框架,通过将推理与训练解耦为异步流水线并引入统一三模型架构,在保持严格在线策略正确性的同时,显著提升了大语言模型强化学习的端到端训练吞吐量。
本文提出了一种名为 Decoder-DeepONet (DDON) 的新型可解释算子学习模型,通过实现函数到函数的映射,在电光效应(EFISH)信号反演中显著提升了非平衡等离子体放电电场轮廓的重建精度、泛化能力及对不完整数据的适应性,并利用积分梯度法优化了数据采集窗口。
该论文提出了一种名为 ELERAG 的检索增强生成架构,通过整合基于 Wikidata 的实体链接和混合重排序策略,显著提升了意大利语教育领域问答系统的事实准确性,并验证了领域自适应策略在解决通用模型与专业领域数据分布不匹配问题上的有效性。
本文提出了 SA²GFM 框架,通过结构感知语义增强、基于信息瓶颈的自监督蒸馏、混合专家路由机制以及分层结构微调,显著提升了图基础模型在噪声、结构扰动及对抗攻击下的鲁棒性与跨域泛化能力。
该论文提出了 ADHint 方法,通过引入样本难度先验来动态调整提示比例,并结合一致性梯度调制与基于难度的优势估计,有效解决了现有基于提示的强化学习方法中探索与模仿失衡及训练不稳定的问题,从而显著提升了模型的推理能力与泛化性能。
该论文提出了方向性文本反转(DTI)方法,通过将嵌入向量幅度固定并仅在单位超球面上优化方向,有效解决了传统文本反转中因嵌入范数膨胀导致的提示词失准问题,从而在提升文本忠实度的同时实现了概念间的平滑语义插值。