A Diffusion Analysis of Policy Gradient for Stochastic Bandits
该论文研究了 臂随机多臂老虎机中策略梯度的连续时间扩散近似,证明了在特定学习率下可实现对数级遗憾,并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。
331 篇论文
该论文研究了 臂随机多臂老虎机中策略梯度的连续时间扩散近似,证明了在特定学习率下可实现对数级遗憾,并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。
本文提出了一种用于求解具有随机目标函数及确定性非线性约束优化问题的信任域内点随机序列二次规划(TR-IP-SSQP)方法,该方法通过构建满足自适应精度条件的随机 Oracle 并结合内点法处理不等式约束,在标准假设下证明了其几乎处处收敛到一阶驻点,并在 CUTEst 测试集和逻辑回归问题上验证了其实际性能。
本文证明了当贝叶斯层次模型中给定超参数的先验为最大熵分布时,通过对超参数积分得到的参数边缘先验同样具有最大熵性质,只是其约束条件变为对未知量某函数的边缘分布的约束,从而揭示了层次模型所隐含的假设信息。
本文提出了一种名为 MultiwayPAM 的新型张量聚类方法,旨在通过分析由问题、回答者和评估者构成的 LLM-as-a-Judge 评分张量,同时估计各维度的聚类成员与中心点,从而有效解决大语言模型评估中的高计算成本与内在偏见问题并揭示评分偏差结构。
本文针对非平稳线性 Bandit 中的固定预算最佳臂识别问题,通过建立适用于任意臂集的依赖臂集复杂度的下界,并提出了匹配该下界的 Adjacent-BAI 算法,从而揭示了该设定下比传统 G-最优设计更精细的复杂度特征。
该论文针对服务系统配置优化中 LLM 自动评分存在偏差而人工审核成本高昂的问题,提出了一种名为 PP-LUCB 的序贯决策算法,通过结合代理分数与逆倾向加权残差估计,在显著降低人工审计成本的同时,以高置信度准确识别出最优服务配置。
本文提出了一种名为加权改进贪婪采样(WiGS)的新方法,通过强化学习动态调整探索与利用的平衡,从而在回归主动学习中克服了传统静态乘积规则的局限性,显著提升了在数据分布不规则场景下的采样效率与预测精度。
本文提出了一种名为广义高斯混合过程(GGMP)的新方法,通过结合局部高斯混合拟合、跨输入分量对齐及分量异方差高斯过程训练,在保持计算可行性的同时实现了针对多模态、异方差及强非高斯数据的条件密度估计。
该论文提出了一种名为“布伦尼尔等距回归”的新型多输出回归方法,它利用最优传输理论将循环单调性约束转化为凸势函数优化问题,从而在概率校准等任务中展现出优于现有基线的性能。
该论文研究了过参数化线性模型中双空间预条件梯度下降(涵盖归一化梯度下降、梯度裁剪和 Adam 等优化器)的收敛性,证明了其迭代序列总能收敛至完美拟合数据的解,并揭示了各向同性预条件器下的隐式偏差特性及其与标准梯度下降解的等价关系。
该论文通过对比蒙特卡洛 Dropout 与共形预测两种方法在 Fashion-MNIST 数据集上的表现,指出尽管 H-CNN VGG16 精度更高但存在过度自信问题,而 GoogLeNet 校准性更优且共形预测能提供统计保证的预测集,从而强调了在深度学习系统中超越准确率、重视可靠性与不确定性评估的重要性。
ReTabSyn 是一种基于强化学习的表格数据合成框架,它通过优化条件分布 而非全联合分布,在小样本、类别不平衡及分布偏移等场景下显著提升了合成数据的下游任务效用。
本文提出了一种基于核函数(包括核 Stein 差异和最大均值差异)的新颖等价性检验方法,旨在克服传统拟合优度检验无法有效证明分布间无显著差异的局限,通过设定预定义差异边界并采用渐近正态近似或自举法计算临界值,从而在控制误差率的前提下评估候选分布与名义分布的等价性。
该论文针对质谱分子结构识别中的高误报风险,提出了一种基于风险 - 覆盖率权衡的筛选预测框架,通过评估不同不确定性量化策略,证明利用计算成本较低的一阶置信度及检索级偶然不确定性,结合分布外风险控制方法,可在保证高概率满足预设错误率约束的前提下,有效筛选出可信的分子结构注释。
该论文提出了一种统一的贝叶斯优化框架,利用高斯过程回归及多种扩展技术(如最优传输、变分正则化和自适应信任半径),通过单一六步代理循环高效加速势能面上极小值点、单点及双端鞍点的搜索,并辅以 Rust 代码实现以验证其在高维系统中的可扩展性与实用性。
本文提出了名为 Ancestral GFlowNet (AGFN) 的多样性探索强化学习算法,该算法通过贝叶斯模型整合先验与含噪后验专家反馈,实现了对存在潜在混杂的祖先图进行分布推断,并在理论收敛性与实证表现上均优于现有基线方法。
这篇论文全面综述并形式化定义了基于神经科学预测编码框架的预测编码网络(PCNs),阐述了其作为比传统反向传播更具生物合理性且能统一监督与无监督学习的通用机器学习框架的潜力与优势。
本书旨在通过统一的语言、图示和教学视角,系统梳理并阐释共形预测及相关分布无关推断技术的核心理论基础与证明策略,以填补该领域重要研究成果分散在各类论文中导致的理解空白。
本文针对核自由二次曲面支持向量机(QSVM)参数过多导致的过拟合与解释性差问题,提出了一种通过正则化实现稀疏性的变体模型,并设计了一种能够产生满足一阶最优性条件解的高效惩罚分解算法,实验表明该模型在保持竞争力的同时能生成稀疏解,特别适用于信用评分等实际场景。
本文针对线性系统求解中因定义域无界导致的收敛分析难题,提出了一种变体 Polyak 步长策略,在无需限制性假设的情况下证明了熵镜像下降法的收敛性,强化了范数隐式偏差的界,并推广至任意凸-光滑函数,同时提出了一种避免指数运算的替代算法。