Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments
该论文针对现实环境中普遍存在的对称性破缺问题,提出了部分群不变 MDP(PI-MDP)框架及相应的部分等变强化学习算法(PE-DQN 和 PE-SAC),通过根据对称性是否成立选择性地应用等变或标准贝尔曼备份,有效抑制了局部对称性破缺导致的误差传播,从而显著提升了强化学习的样本效率与泛化能力。
3821 篇论文
该论文针对现实环境中普遍存在的对称性破缺问题,提出了部分群不变 MDP(PI-MDP)框架及相应的部分等变强化学习算法(PE-DQN 和 PE-SAC),通过根据对称性是否成立选择性地应用等变或标准贝尔曼备份,有效抑制了局部对称性破缺导致的误差传播,从而显著提升了强化学习的样本效率与泛化能力。
该论文提出了一种跨本体协同设计框架,能够端到端地自动学习特定任务的手部形态与互补控制策略,并在不到 24 小时内完成从设计、训练到实物制造与部署的全过程。
该论文介绍了 AlphaQubit 2,这是一种基于神经网络的解码器,能够在商用加速器上实现微秒级实时解码,并在大规模下为表面码和色码提供近最优的逻辑错误率,从而显著提升了色码的解码速度并确立了通往高容错量子计算的可行路径。
本文提出了名为 Trio 的分子生成框架,通过整合片段式分子语言模型、强化学习与蒙特卡洛树搜索,实现了兼具可解释性、合成可行性与高结合亲和力的闭环靶向分子设计,显著优于现有最先进方法并大幅拓展了化学空间多样性。
本文提出了一种基于最大风险最小化(MaxRM)原则的随机森林变体,通过设计高效算法并证明统计一致性,实现了在均方误差、负奖励和遗憾三种风险度量下的跨环境泛化,并针对遗憾风险给出了新分布下的泛化保证。
该论文提出了名为 PvP 的基于本体感知与特权状态对比学习的框架,并开发了首个统一的人形机器人状态表征学习评估平台 SRL4Humanoid,显著提升了人形机器人在动态环境下的样本效率与控制性能。
该论文提出了首个电池寿命预测基础模型“预训练电池 Transformer(PBT)”,它通过融合电池知识的混合专家层从异构数据中学习可迁移表征,在涵盖多种离子电池和老化条件的广泛测试中显著超越了现有最先进方法,为数据稀缺领域的通用寿命预测系统提供了可扩展的解决方案。
本文提出了 NMIRacle,这是一种结合红外和核磁共振光谱数据的双阶段生成式框架,通过从片段表征学习结构重建并利用光谱嵌入微调生成器,实现了比现有基线更准确且稳健的分子结构解析。
该论文提出了一种统一的理论框架,通过解析梯度下降中的鞍点间(saddle-to-saddle)动力学机制,解释了全连接、卷积及注意力等通用神经网络架构为何会表现出从简单(如低秩、稀疏或头数较少)到复杂解的渐进式学习偏好(即简单性偏差)。
该论文针对低照度动漫风景图像增强任务,通过构建新数据集并提出受相对论 GAN 启发的数据相对论不确定性(DRU)框架,利用光波粒二象性类比量化光照不确定性以动态调整目标函数,从而显著提升了生成模型的感知与美学质量。
该论文通过构建已知真实后验的“贝叶斯风洞”环境,证实了小型 Transformer 能够以极高精度实现贝叶斯推理,并揭示其通过残差流作为信念基底、前馈网络执行更新以及注意力机制进行内容寻址的几何机制,从而在架构层面解释了 Transformer 优于 MLP 的推理能力。
该论文通过一阶分析揭示了交叉熵训练如何通过注意力分数的优势路由和值向量的责任加权更新,驱动注意力与内容协同专业化,从而在优化过程中塑造出支持贝叶斯推理的低维流形几何结构。
该研究发现,尽管现代大型语言模型并未将贝叶斯推理的几何结构作为单一计算瓶颈,但它们确实保留了合成环境中观察到的低维流形结构,并利用该结构将近似贝叶斯更新与预测熵紧密对齐。
该研究提出了一种名为 PanSubNet 的可解释深度学习框架,能够直接从常规 H&E 染色病理切片中准确预测胰腺导管腺癌的临床相关分子亚型,从而克服了传统基因检测成本高、耗时长等局限,为精准医疗提供了快速且可部署的解决方案。
该论文系统评估了搜索增强大语言模型中普遍存在的“过度搜索”现象,揭示了其在不同场景下的负面影响,提出了衡量性能与成本权衡的新指标 Tokens Per Correctness (TPC),并发布了 OverSearchQA 数据集以推动高效搜索增强模型的研究。
该论文提出了一种基于线性随机插值的概率流常微分方程的采样新方法,通过利用朗之万采样器高效生成中间分布样本并构建速度场估计器,实现了对未归一化玻尔兹曼分布的有效采样,并在理论上证明了收敛性,在数值实验中展现了处理高维多模态分布及贝叶斯推断任务的高效性。
本文针对利用生成模型作为先验的贝叶斯逆问题,建立了最小化 Wasserstein-2 距离的生成先验误差定量界,证明了后验误差在特定假设下继承先验的 Wasserstein-1 收敛速率,并通过数值实验及椭圆偏微分方程逆问题验证了该理论分析的有效性。
本文提出了基于 Hahn 多项式激活函数的轻量级可解释模型 HaKAN,通过结合通道独立性、分块机制及 Hahn-KAN 模块,在长短期多变量时间序列预测任务中超越了现有的 Transformer 和 MLP 基线方法。
本文提出了一种名为 VR-SDA-A 的新型自适应方差缩减算法,通过结合 STORM 动量机制与同批曲率验证技术,成功突破了随机变分不等式中的随机性障碍,在无需手动调节学习率的情况下实现了与非凸最小化问题最优的 oracle 复杂度。
该论文提出了一种基于奇异贝叶斯神经网络的参数高效方法,通过将权重矩阵参数化为低秩分解形式,在显著减少参数量的同时实现了优于传统均值场方法的校准性、分布外检测能力及泛化性能。