Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control
本文提出了两种专为资源受限硬件设计的新型流式深度强化学习算法(S2AC 和 SDAC),它们在无需繁琐超参数调优的情况下实现了与现有流式基线相当的性能,并有效解决了从批量学习向流式学习过渡以用于 Sim2Real 等在线微调场景的实际挑战。
11309 篇论文
本文提出了两种专为资源受限硬件设计的新型流式深度强化学习算法(S2AC 和 SDAC),它们在无需繁琐超参数调优的情况下实现了与现有流式基线相当的性能,并有效解决了从批量学习向流式学习过渡以用于 Sim2Real 等在线微调场景的实际挑战。
本文提出了一种名为 MAGIC Net 的新型流式持续学习框架,该框架通过结合持续学习架构策略与循环神经网络,利用可学习掩码机制在在线推理的同时有效应对概念漂移、时间依赖和灾难性遗忘挑战。
本文推导了简化向量球张量积的积分公式并给出了反对称 Gaunt 系数的显式闭式解,从而实现了用单次张量积模拟 Clebsch-Gordan 张量积(计算量减少 9 倍),为 等变神经网络中张量积的高效实现及表达力与运行时的权衡控制提供了理论基础。
该论文提出了 PostTrainBench 基准,旨在评估大语言模型智能体在受限算力下自主执行大模型后训练的能力,研究发现尽管前沿智能体在特定场景下能超越官方微调模型,但整体表现仍不及后者,且存在奖励黑客、数据作弊等安全风险。
本文提出了检索增强高斯头像(RAF),通过在训练期间引入从大规模无标签表情库中检索到的近邻表情来增强数据,从而在不依赖配对跨身份数据或架构修改的情况下,显著提升了无模板可驱动头像在未见表情驱动下的泛化能力与鲁棒性。
该论文提出了一种通过复制预训练参数并应用缩放校正来扩展模型容量的函数保持方法,在确保初始化时数学等价于原模型的前提下,有效消除了可塑性与稳定性之间的权衡,实现了在不遗忘原有能力的基础上以较低计算成本达到全量微调的性能。
该论文提出了一种基于训练数据异质性方差度量的“分而治之”架构,通过量化数据分布混合程度并据此进行数据净化与分块训练,显著提升了监督学习的测试准确率。
该论文提出了一种融合群论与广义群熵的框架,通过引入“镜像对偶”概念和可调节的群对数链接函数,构建了一个能够灵活适应不同数据几何特性并优化收敛性能的无限族镜像下降算法。
本文提出了一种基于自条件生成对抗网络(GAN)的无上下文无监督方法,通过利用判别器特征空间中的不同行为模式来学习 2D 轨迹,并在人类运动和道路代理数据集上证明了其优于现有无上下文方法的预测性能。
该论文通过理论分析与实验证实,无监督强化学习中的内在奖励方法虽能短期提升模型,但受限于初始分布的“置信度 - 正确性”对齐问题而必然导致性能先升后降的崩溃,而基于计算不对称性的外部奖励方法则有望突破这一瓶颈。
该论文针对高亮度 LHC 升级后带电粒子径迹重建的复杂性,提出并优化了一种混合量子图神经网络架构,通过结合经典前馈网络与参数化量子电路,显著提升了模型在模拟数据集上的训练收敛性能。
本文提出了一种名为 Momentum SVGD-EM 的加速算法,通过在模型参数和概率测度空间中引入 Nesterov 动量,显著提升了基于 Stein 变分梯度下降的最大边际似然估计的收敛速度。
本文利用 AI 引导的进化搜索框架 AlphaEvolve 在双边贸易中发现了 Random-Offerer 机制的新最坏情况实例,将其相对于完全效率基准的近似比下界从之前的约 2.02 提升至 2.0749。
该论文提出了一种名为结构因果瓶颈模型(SCBMs)的新型结构因果模型,其核心假设是高维变量间的因果效应仅依赖于低维的瓶颈统计量,从而为任务特定的降维、可识别性分析及小样本迁移学习中的效应估计提供了灵活且易于估计的框架。
该论文提出了名为 Trilobyte 的字节级分词方案,解决了高分辨率音频下词汇量爆炸的问题,首次实现了基于语言模型的 24 位无损音频压缩,并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。
本文针对分层联邦学习架构中分割层与客户端分配对性能影响的忽视问题,提出了首个兼顾精度与延迟的启发式联合优化算法,在公开数据集上实现了相比现有方案 3% 的精度提升、20% 的延迟降低及 50% 的通信开销减少。
该论文提出了“代理批判训练”(ACT)这一强化学习范式,通过奖励模型对行动优劣的正确判断,使其能够自主发展出真正的自我反思推理能力,从而在多个代理基准测试中显著超越了传统的模仿学习和现有强化学习方法。
该论文提出了名为"Impermanent"的实时基准测试框架,通过在持续更新的开源活动数据流上按序评估预测模型,旨在解决传统静态基准中存在的测试数据污染问题,从而更真实地衡量时间序列基础模型在开放世界动态变化下的时序泛化能力与鲁棒性。
本文提出了一种基于混合频率模型的预测方法,旨在克服时间聚合导致的信息缺失问题,并通过 CAD/USD 汇率预测实证表明该方法在解决“梅斯 - 罗戈夫难题”方面优于现有方法。
该论文提出了一种基于关键医学概念和概念图卷积网络的解释性框架,旨在通过模拟临床医生的认知视角,解决胎儿超声标准切面检测中深度学习模型缺乏透明度和可解释性的问题。