Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
该论文通过引入停止时间/鞅分析,在经典有界方差假设下首次从理论上证明了 Adam 算法的高概率收敛性对置信参数 的依赖为 ,优于 SGD 算法必然存在的 依赖,从而解释了 Adam 具有更尖锐尾部(即更优的高概率收敛表现)的原因。
2792 篇论文
该论文通过引入停止时间/鞅分析,在经典有界方差假设下首次从理论上证明了 Adam 算法的高概率收敛性对置信参数 的依赖为 ,优于 SGD 算法必然存在的 依赖,从而解释了 Adam 具有更尖锐尾部(即更优的高概率收敛表现)的原因。
该论文提出了组分探针分解(CPD)方法,揭示了在原子基础模型中,任务对齐度是决定几何与组分信息能否线性解耦的主导因素,并发现不同架构模型间存在显著的线性可及性梯度,且信息在特定对称性通道(如向量通道编码偶极矩、标量通道编码能隙)中按对称类型路由。
该论文通过受控实验表明,基于输出分布的污染检测方法(CDD)在小型语言模型中因依赖verbatim记忆而表现不佳,其效果远不如困惑度(perplexity)和 Min-k% Prob 等概率基方法。
本文探讨了基于模型上下文协议(MCP)的 SPARQL 智能体在联邦知识图谱问答中的潜力,通过扩展现有基准测试并评估不同架构在端点发现、模式探索及查询构建等任务中的表现,实现了自动化 SPARQL 联邦查询与智能体 AI 的有机结合。
本文提出了一种开放且运动无关的多项运动空间评估平台,通过标准化输入和提供时序感知的空间分析,实现了极限飞盘、篮球和足球等入侵类运动中“可用空间”与“无球跑动时机”的跨项目一致评估。
本文提出了两种基于强化学习的自主 AI 代理框架(RLOP 和 QLBS),通过优先关注短缺概率和下行风险,在 SPY 和 XOP 期权实证中显著降低了尾部风险并提升了实际对冲表现,从而弥合了静态模型校准与动态对冲结果之间的差距。
本文提出了一种名为“等渗层”(Isotonic Layer)的新型可微框架,通过将分段线性拟合与约束优化直接集成到神经网络中,实现了对推荐系统偏差的自适应校准与全局单调性约束,从而在提升预测精度和排序一致性的同时显著增强了模型的可靠性与公平性。
该论文提出了一种结合神经推理、结构感知先验与在线任务适应的 Transformer 系统,通过紧凑的任务编码、基于群对称性的数据增强、测试时训练(TTT)以及对称性感知解码,显著提升了 ARC 任务的泛化能力并缩小了与人类水平的差距。
该论文通过大规模人工验证揭示,现有“LLM 作为裁判”的框架因无法应对红队测试中的分布偏移,导致其评估结果往往退化为随机猜测,并指出许多攻击实则是利用了裁判模型的缺陷而非真正产生了有害内容,为此作者提出了更可靠的基准测试与裁判压力测试数据集以改进评估体系。
本文提出了一种基于神经动力学的双时间尺度方法,通过三种投影方程求解分布鲁棒几何联合机会约束优化问题,该方法无需传统求解器即可概率收敛至全局最优,并成功应用于形状优化与电信问题。
该论文提出了一种将伦理原则转化为可执行控制机制的“伦理设计”架构,通过在每个 AI 生命周期阶段实施包含性能、合规及可持续性指标的“三重门”机制,填补了现有治理框架在端到端操作控制方面的空白,从而为构建可验证、可落地的未来 AI 伦理治理体系提供了实践基础。
本文提出了一种名为 FuzzingRL 的强化模糊测试方法,通过结合视觉与语言模糊变换及对抗性强化微调,自动生成旨在诱导视觉语言模型(VLM)产生错误回答的多样化问题,从而有效揭示并降低目标模型的性能。
该论文揭示了数据重复性具有尺度依赖性,即随着模型能力提升,语义重复文档的梯度对齐度增加且语义碰撞加剧,导致大模型在有限独特语料上训练时出现性能退化并偏离预期扩展规律,进而提出了相应的扩展定律以修正预测。
该论文通过构建一系列逐步增加复杂度的多智能体干扰博弈任务,利用大规模 SUMO 生成数据集系统解耦并评估了 C-V2X 网络中多智能体深度强化学习资源分配面临的关键挑战,发现策略在多样化车辆拓扑下的鲁棒性与泛化能力是主要瓶颈,并开源了代码与基准测试套件以推动该领域的可复现研究。
该论文提出了名为“双桥地图套件(Two-Bridge Map Suite)”的开源基准,旨在通过移除经济机制并聚焦于长距离导航与微操战斗,填补《星际争霸 II》全游戏与微型游戏之间的复杂度空白,从而为在有限算力下进行强化学习研究提供可访问的中间环境。
该论文指出,在缺乏外部验证的领域,通过增加推理计算量(如多数投票或集成策略)无法提升大语言模型的真实性,因为模型间的错误高度相关且自我置信度不可靠,导致聚合结果往往只是强化了共同的误解而非验证真理。
本文提出了一种名为 OptiRoulette 的随机元优化器,它通过在训练过程中动态选择更新规则,在多个图像分类基准测试中显著提升了收敛速度和最终准确率,并实现了比单一 AdamW 基线更可靠的训练目标达成率。
该论文提出了一种名为“退火协同生成”(ACG)的框架,通过将高维联合建模解耦为低维成对建模,并利用三阶段退火过程耦合共享变量,从而在无需额外训练的情况下实现了高效且一致的多元科学数据协同生成。
本文提出了 RACER 方法,通过将大语言模型路由问题建模为-VOR 问题并利用有限样本浓度界限进行校准,实现了在无需分布假设的情况下对误路由风险的控制,从而在降低成本的同時显著提升了下游任务的准确性。
本文提出了名为 Evo 的新型大语言模型,该模型通过构建连续潜变量轨迹,将自回归与扩散生成范式统一为自适应平衡的语义演化框架,在保持高效推理速度的同时,于多项基准测试中实现了卓越的语言理解、推理及代码生成性能。