Automated Reinforcement Learning: An Overview
本文综述了自动化强化学习(AutoRL)的相关文献,涵盖了从 MDP 建模、算法选择到超参数优化的自动化工具及基于大语言模型的最新技术,并探讨了该领域的未来挑战与研究方向。
5752 篇论文
本文综述了自动化强化学习(AutoRL)的相关文献,涵盖了从 MDP 建模、算法选择到超参数优化的自动化工具及基于大语言模型的最新技术,并探讨了该领域的未来挑战与研究方向。
该论文提出了一种将数据不确定性作为额外输入的可解释子序列模型,在保持与最先进方法相当分类性能的同时,解决了现有可解释时间序列方法在处理天文不确定时间序列时性能不足的问题,并能为天体物理理论建模提供新的见解。
该论文提出了一种基于高斯过程回归的集成学习方法,用于预测股票条件预期收益,实证表明该方法在统计和经济指标上均优于现有机器学习模型,并能通过利用预测不确定性构建均值 - 方差最优投资组合,显著跑赢标普 500 指数。
该论文研究了通过直接预测多步成本而非观测或动作来学习潜在状态表示的方法,并针对有限时变线性二次高斯(LQG)控制问题,首次建立了该成本驱动方法能够找到近优状态表示函数和近优控制器的有限样本理论保证。
本文提出将重要性采样应用于深度卡尔曼滤波框架以构建 IW-DKF 模型,通过引入更紧的蒙特卡洛目标函数,显著提升了非线性物理模型在生成性能、状态推断及参数估计方面的表现。
该论文提出了名为 MU-Mis 的机器学习遗忘方法,通过理论揭示样本贡献体现为模型对其敏感度的增加,并直接抑制这种敏感度,从而在无需访问剩余数据的情况下实现了与依赖剩余数据方法相当的高效遗忘效果,同时保持了模型在剩余数据上的效用。
本文从机器学习视角出发,对计算机化自适应测试(CAT)进行了全面综述,深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化,旨在推动心理测量学与机器学习的跨学科融合,以构建更稳健、公平且高效的自适应测试系统。
该论文提出了一种将环境记忆编码为耗散子(dissipatons)的神经量子态框架(NQS-DQME),通过构建耗散子嵌入量子主方程,在保持与精确层级运动方程相当精度的同时,显著提升了模拟非马尔可夫开放量子系统多体关联与记忆效应的可扩展性与可解释性。
本文提出了 LoRA-Ensemble,一种基于低秩适应(LoRA)的参数高效隐式集成方法,它通过让多个集成成员共享预训练自注意力网络并仅使用独立的低秩投影矩阵,在显著降低计算和内存成本的同时,实现了超越现有隐式技术、媲美显式集成且校准更优的预测性能。
该论文提出了一种名为 FEX 的新框架,通过利用策略梯度方法优化概率分布来生成归因解释,从而在保持高质量和广泛适用性的同时,将推理时间和内存占用分别降低了 97% 和 70%,有效解决了现有解释方法效率低下的问题。
该论文揭示了扩散模型在少样本微调过程中存在的“腐蚀阶段”现象,并通过引入贝叶斯神经网络扩展学习分布,有效缓解了该问题并提升了生成图像的质量与多样性。
本文提出了一种名为 DKDL-Net 的轻量级滚动轴承故障诊断模型,该模型通过解耦知识蒸馏与低秩自适应微调技术,在显著降低参数量(仅 6838 个)的同时实现了 99.48% 的高精度,性能优于现有最先进模型。
该论文针对在线内容平台因算法竞争导致的实验干扰问题,提出了一种结合算法选择与用户响应模型的半参数结构化框架,通过扩展双重机器学习理论来构建无偏估计量,从而准确评估算法全局推广效果并纠正传统估计量的严重偏差。
本文介绍了 LAMBDA,一种基于大语言模型的开源、无代码多智能体数据分析系统,它通过程序员与检查员角色的协同工作、用户直接干预机制以及外部知识集成能力,实现了高效且鲁棒的数据分析,从而降低了数据分析门槛并提升了人机协作效率。
本文提出了一种名为 OTAD 的新型两阶段最优传输诱导防御模型,通过结合最优传输正则化与凸积分问题求解,在确保局部 Lipschitz 连续性的同时实现对训练数据的精确拟合,从而在多种架构和数据集上展现出优于现有方法的鲁棒性。
该论文建立了基于小批量随机梯度下降优化的深度 Cox 模型中“小批量最大偏似然估计量”(mb-MPLE)的统计理论框架,证明了其一致性、最优收敛速率及渐近正态性,并提供了关于学习率与批量比等超参数调优的实用指导,从而解决了大规模数据下标准估计量难以计算的问题。
本文提出了一种结合退火重要性采样与变分推断的算法,通过重参数化证据下界并构建中间分布序列,有效解决了高维复杂数据下高斯过程潜在变量模型中提案分布难以生成的问题,从而实现了更紧的变分界、更高的对数似然及更稳健的收敛。
本文通过引入取值于任意度量空间 的核来定义 -网络,并构建了统一的 -Gromov-Wasserstein 距离框架,该框架不仅涵盖了许多已知变体,还证明了其具备度量性、可分性、完备性和测地性等优良性质,同时提供了适用于实际应用的计算下界与近似方法。
该研究通过对大量文献的综述和模拟实验,指出后验解释工具(如 SHAP 和 LIME)虽能解释模型预测,但因特征相关性和“拉什omon 效应”导致其难以可靠还原真实数据关系,因此警示商业研究不应将其用于假设验证,而应仅作为生成洞察的探索性工具。
本文通过建立公平的量化基准并引入包含数据移动开销的详细能耗模型,重新评估了脉冲神经网络(SNN)的能效,揭示了其在特定低脉冲率及中等时间步长条件下相比量化人工神经网络(QNN)具有显著能效优势,并指出优化后的 SNN 有望使智能手表的电池寿命翻倍。