Automated Reinforcement Learning: An Overview
本文综述了自动化强化学习(AutoRL)的相关文献,涵盖了从 MDP 建模、算法选择到超参数优化的自动化工具及基于大语言模型的最新技术,并探讨了该领域的未来挑战与研究方向。
2393 篇论文
本文综述了自动化强化学习(AutoRL)的相关文献,涵盖了从 MDP 建模、算法选择到超参数优化的自动化工具及基于大语言模型的最新技术,并探讨了该领域的未来挑战与研究方向。
该论文提出了一种将数据不确定性作为额外输入的可解释子序列模型,在保持与最先进方法相当分类性能的同时,解决了现有可解释时间序列方法在处理天文不确定时间序列时性能不足的问题,并能为天体物理理论建模提供新的见解。
本文综述了大型语言模型(LLM)的最新进展,系统介绍了其背景、关键发现及主流技术,重点围绕预训练、适应微调、应用利用和能力评估四大核心方面展开,并总结了相关资源与未来挑战。
本文综述了基于效用理论的认知建模在机器人领域的应用,探讨了从行为基机器人到价值系统的演进、其在单/多智能体及人机交互中的作用,并提出了未来的研究方向与开放性问题。
本文提出了一种基于环路的算法,用于解决自动导引车(AGV)在环路图上的在线无冲突调度与路径规划问题,实验表明该方法在求解质量和计算效率上均优于或等同于现有的精确方法、贪心启发式及元启发式算法。
本文提出了名为 Agent-OM 的新型大语言模型代理框架,通过双 Siamese 代理与专用工具协同工作,在简单本体匹配任务上达到顶尖性能,并在复杂及少样本任务中显著优于现有最先进系统。
本文从机器学习视角出发,对计算机化自适应测试(CAT)进行了全面综述,深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化,旨在推动心理测量学与机器学习的跨学科融合,以构建更稳健、公平且高效的自适应测试系统。
该论文提出了一种名为 FEX 的新框架,通过利用策略梯度方法优化概率分布来生成归因解释,从而在保持高质量和广泛适用性的同时,将推理时间和内存占用分别降低了 97% 和 70%,有效解决了现有解释方法效率低下的问题。
该论文揭示了扩散模型在少样本微调过程中存在的“腐蚀阶段”现象,并通过引入贝叶斯神经网络扩展学习分布,有效缓解了该问题并提升了生成图像的质量与多样性。
本文介绍了 LAMBDA,一种基于大语言模型的开源、无代码多智能体数据分析系统,它通过程序员与检查员角色的协同工作、用户直接干预机制以及外部知识集成能力,实现了高效且鲁棒的数据分析,从而降低了数据分析门槛并提升了人机协作效率。
本文提出了一种名为 OTAD 的新型两阶段最优传输诱导防御模型,通过结合最优传输正则化与凸积分问题求解,在确保局部 Lipschitz 连续性的同时实现对训练数据的精确拟合,从而在多种架构和数据集上展现出优于现有方法的鲁棒性。
本文提出了一种结合退火重要性采样与变分推断的算法,通过重参数化证据下界并构建中间分布序列,有效解决了高维复杂数据下高斯过程潜在变量模型中提案分布难以生成的问题,从而实现了更紧的变分界、更高的对数似然及更稳健的收敛。
本文提出了一种名为 MLVAS 的多模态喉镜视频分析系统,该系统通过融合音频关键词检测与基于扩散模型优化的视频声门分割技术,自动提取关键视频片段并生成客观的声带运动指标,从而辅助临床医生对声带麻痹进行更可靠的诊断。
本文探讨了人工智能如何通过自动化测试用例生成与验证、动态适应代码变更及实现自愈测试,来解决传统软件测试在覆盖率、效率和成本方面的局限,同时也分析了高质量数据、模型透明度及人机协作等关键挑战。
本文通过建立公平的量化基准并引入包含数据移动开销的详细能耗模型,重新评估了脉冲神经网络(SNN)的能效,揭示了其在特定低脉冲率及中等时间步长条件下相比量化人工神经网络(QNN)具有显著能效优势,并指出优化后的 SNN 有望使智能手表的电池寿命翻倍。
该论文提出了一种新的耦合振荡器网络(CON)模型,通过赋予其拉格朗日系统结构、证明全局输入 - 状态稳定性并建立输入与潜在空间力的可逆映射,实现了基于原始像素反馈的机械系统高效潜在空间闭环控制。
本文提出了一种基于自举去噪能量匹配(BNEM)的新型玻尔兹曼采样器,该方法通过直接学习能量函数并结合自举技术平衡偏差与方差,在二维高斯混合模型和双势阱势等任务中展现了比现有方法更优越的性能和鲁棒性。
该论文提出了一种名为 PiVOT 的新型视觉提示机制,通过利用预训练基础模型(CLIP)在线自动生成并优化视觉提示,引导跟踪器生成实例感知特征图以有效抑制干扰物,从而提升通用目标跟踪的性能。
该论文提出了一种基于常时滞神经延迟微分方程(NDDEs)的框架,通过借鉴 Mori-Zwanzig 形式体系将隐藏变量转化为记忆项,从而在部分可观测条件下高效地学习非马尔可夫动力学系统。
该论文提出了 Puppet-CNN 框架,通过将卷积层参数建模为受神经微分方程控制的连续动态系统,实现了根据输入复杂度自适应调整有效层数,从而在保持竞争力的同时显著减少了可训练参数。