On-Average Stability of Multipass Preconditioned SGD and Effective Dimension
本文首次建立了多轮次预条件随机梯度下降(PSGD)的平均算法稳定性理论,揭示了人口风险曲率、噪声几何与预条件策略之间的权衡关系,并证明了不当的预条件选择会导致基于有效维度的泛化与优化性能次优。
335 篇论文
本文首次建立了多轮次预条件随机梯度下降(PSGD)的平均算法稳定性理论,揭示了人口风险曲率、噪声几何与预条件策略之间的权衡关系,并证明了不当的预条件选择会导致基于有效维度的泛化与优化性能次优。
本文提出了 BTZSC 基准,通过涵盖 22 个数据集对跨编码器、嵌入模型、重排序器及大语言模型进行了系统的零样本文本分类评估,发现现代重排序器性能最佳,而传统 NLI 跨编码器则表现停滞。
该论文通过数学证明和数值实验表明,无隐藏层的化学反应网络在分类任务(如手写数字识别)上比需要隐藏层的脉冲神经网络具有更高的学习效率和准确性,并提供了相应的理论界限分析。
本文提出了一种基于 Wasserstein 梯度流的新型批量贝叶斯最优实验设计方法,通过将优化问题提升至概率测度空间并引入熵正则化,利用粒子算法有效解决了高维非凸批量设计中的优化难题。
该论文基于双模态混合抽象,从理论上量化了生成模型持续后训练中的遗忘现象,揭示了前向与反向 KL 散度在质量遗忘和旧分量漂移上的不同机制,并阐明了重放策略及现有近于策略方法如何受散度方向、几何重叠度及采样机制的影响。
本文指出基于 Fisher 度量的黎曼拉普拉斯近似在无限数据极限下仍存在偏差和过窄问题,并提出了两种修正变体,使其在保持计算高效的同时实现无限数据下的精确性,从而在理论和实验上均优于现有方法。
本文提出了一种基于乐观主义的在线 KL 正则化上下文多臂老虎机算法,并通过利用 KL 正则化带来的良性优化景观,证明了该算法在奖励函数类复杂度较低时能达到对数级累积遗憾,且该结论可进一步推广至强化学习场景。
该研究基于 2018 至 2025 年 42 个经济体的数据,揭示了地缘政治冲击通过直接渠道重定价主权违约风险,而地缘经济冲击则通过货币政策预期和全球金融周期传导,两者形成“剪刀差”模式,并据此提出流动性供给可缓解金融周期传导的利差扩大,但无法消除地缘政治风险溢价中的持久成分。
该论文提出了一种基于上下文汤普森采样的个性化练习推荐方法,利用学习者数据动态选择最能提升技能水平的题目,从而在大规模在线教育环境中实现高效的学习增益优化。
本文提出了一种名为 SSRCA 的新型机器学习流程,通过模拟、汇总、降维、聚类和分析五个步骤,有效解决了代理基模型(ABM)敏感性分析的计算难题,能够识别敏感参数、揭示输出模式并确定生成这些模式的参数区域,且相比传统的 Sobol 法具有更强的鲁棒性。
本文提出了一种半参数贝叶斯加法回归树(BART)的新方法,通过改进树生成机制来解决线性预测器与 BART 组件共享协变量时的非识别性与偏差问题,从而允许对主要关注的协变量进行复杂的交互建模,并在教育评估等实际应用中展现了优越性能。
该论文提出并分析了一类用于约束块黎曼优化的块主化最小化(BMM)算法,证明了其在非凸光滑目标函数下渐近收敛至平稳点集且达到-平稳点的迭代复杂度为,并验证了其在多种黎曼几何约束问题中优于标准欧氏算法的性能。
本文针对具有耦合线性约束的非凸极小极大问题,提出了两种单循环零阶算法(ZO-PDAPG 和 ZO-RMPDPG),并在确定性和随机设定下分别证明了其达到-平稳点的迭代复杂度,填补了该领域零阶算法理论分析的空白,其中 ZO-RMPDPG 在无约束随机设定下还刷新了现有零阶算法的最优复杂度记录。
本文提出了一种基于极小化极大目标函数的公平非负矩阵分解方法,通过推导两种优化算法并结合实验表明,该方法虽能提升群体公平性,但可能以牺牲部分个体精度为代价,且其适用性需根据具体应用场景权衡。
本文通过综合实验研究,评估了公平性感知机器学习模型在信用评分任务中的表现,结果表明其在预测准确性与公平性之间取得了优于传统分类模型的平衡。
该论文通过 2-Wasserstein 梯度流分析,证明了在使用 Lipschitz 连续激活函数训练浅层神经网络时,优化过程中的种群风险衰减速度受限于 (或针对特定局部 Lipschitz 函数的 ),从而揭示了目标函数光滑度与神经网络优化中维度灾难之间的内在联系。
本文通过引入新的技术工具,将基于熵流的泛化误差分析方法从特定的连续时间噪声算法推广至所有由时齐马尔可夫过程支配的迭代学习算法,建立了泛化误差与马尔可夫过程遍历性之间的新联系,并推导出了适用于多种具体算法的泛化界。
本文提出了一种结合梯度裁剪、动量机制与误差反馈的新算法 Clip21-SGD2M,旨在解决联邦学习中难以同时实现强差分隐私保障与最优优化收敛速度的难题,并在数据异构的非凸问题中证明了其理论优势与实验性能。
本文从变分推断视角出发,将 log-homotopy 粒子流表述为 Fisher-Rao 梯度流,通过引入高斯及高斯混合变分密度推导了相应的粒子流算法,并证明了在线性高斯假设下该算法可退化为精确的 Daum-Huang 粒子流。
本文提出了名为 CausalPitfalls 的综合基准,旨在通过结构化挑战和双重评估协议,系统性地评估大语言模型在克服辛普森悖论等统计陷阱方面的因果推理能力,并揭示了当前模型在此领域的显著局限性。