stat.ML 篇论文 | Gist.Science

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

该论文研究了 $k$ 臂随机多臂老虎机中策略梯度的连续时间扩散近似，证明了在特定学习率下可实现对数级遗憾，并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。

A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

本文提出了一种用于求解具有随机目标函数及确定性非线性约束优化问题的信任域内点随机序列二次规划（TR-IP-SSQP）方法，该方法通过构建满足自适应精度条件的随机 Oracle 并结合内点法处理不等式约束，在标准假设下证明了其几乎处处收敛到一阶驻点，并在 CUTEst 测试集和逻辑回归问题上验证了其实际性能。

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad LavaeiThu, 12 Ma🔢 math

Bayesian Hierarchical Models and the Maximum Entropy Principle

本文证明了当贝叶斯层次模型中给定超参数的先验为最大熵分布时，通过对超参数积分得到的参数边缘先验同样具有最大熵性质，只是其约束条件变为对未知量某函数的边缘分布的约束，从而揭示了层次模型所隐含的假设信息。

Brendon J. BrewerThu, 12 Ma📊 stat

MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

本文提出了一种名为 MultiwayPAM 的新型张量聚类方法，旨在通过分析由问题、回答者和评估者构成的 LLM-as-a-Judge 评分张量，同时估计各维度的聚类成员与中心点，从而有效解决大语言模型评估中的高计算成本与内在偏见问题并揭示评分偏差结构。

Chihiro Watanabe, Jingyu SunThu, 12 Ma📊 stat

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

本文针对非平稳线性 Bandit 中的固定预算最佳臂识别问题，通过建立适用于任意臂集的依赖臂集复杂度的下界，并提出了匹配该下界的 Adjacent-BAI 算法，从而揭示了该设定下比传统 G-最优设计更精细的复杂度特征。

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam FazelThu, 12 Ma📊 stat

Designing Service Systems from Textual Evidence

该论文针对服务系统配置优化中 LLM 自动评分存在偏差而人工审核成本高昂的问题，提出了一种名为 PP-LUCB 的序贯决策算法，通过结合代理分数与逆倾向加权残差估计，在显著降低人工审计成本的同时，以高置信度准确识别出最优服务配置。

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-LeviThu, 12 Ma🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

本文提出了一种名为加权改进贪婪采样（WiGS）的新方法，通过强化学习动态调整探索与利用的平衡，从而在回归主动学习中克服了传统静态乘积规则的局限性，显著提升了在数据分布不规则场景下的采样效率与预测精度。

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormickThu, 12 Ma📊 stat

GGMPs: Generalized Gaussian Mixture Processes

本文提出了一种名为广义高斯混合过程（GGMP）的新方法，通过结合局部高斯混合拟合、跨输入分量对齐及分量异方差高斯过程训练，在保持计算可行性的同时实现了针对多模态、异方差及强非高斯数据的条件密度估计。

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. NoackThu, 12 Ma🤖 cs.LG

Brenier Isotonic Regression

该论文提出了一种名为“布伦尼尔等距回归”的新型多输出回归方法，它利用最优传输理论将循环单调性约束转化为凸势函数优化问题，从而在概率校准等任务中展现出优于现有基线的性能。

Han Bao, Amirreza Eshraghi, Yutong WangThu, 12 Ma📊 stat

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

该论文研究了过参数化线性模型中双空间预条件梯度下降（涵盖归一化梯度下降、梯度裁剪和 Adam 等优化器）的收敛性，证明了其迭代序列总能收敛至完美拟合数据的解，并揭示了各向同性预条件器下的隐式偏差特性及其与标准梯度下降解的等价关系。

Reza Ghane, Danil Akhtiamov, Babak HassibiThu, 12 Ma📊 stat

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

该论文通过对比蒙特卡洛 Dropout 与共形预测两种方法在 Fashion-MNIST 数据集上的表现，指出尽管 H-CNN VGG16 精度更高但存在过度自信问题，而 GoogLeNet 校准性更优且共形预测能提供统计保证的预测集，从而强调了在深度学习系统中超越准确率、重视可靠性与不确定性评估的重要性。

Sanne Ruijs, Alina Kosiakova, Farrukh JavedThu, 12 Ma📊 stat

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

ReTabSyn 是一种基于强化学习的表格数据合成框架，它通过优化条件分布 $P(y\mid \bm{X})$ 而非全联合分布，在小样本、类别不平衡及分布偏移等场景下显著提升了合成数据的下游任务效用。

Xiaofeng Lin, Seungbae Kim, Zhuoya Li, Zachary DeSoto, Charles Fleming, Guang ChengThu, 12 Ma📊 stat

Kernel Tests of Equivalence

本文提出了一种基于核函数（包括核 Stein 差异和最大均值差异）的新颖等价性检验方法，旨在克服传统拟合优度检验无法有效证明分布间无显著差异的局限，通过设定预定义差异边界并采用渐近正态近似或自举法计算临界值，从而在控制误差率的前提下评估候选分布与名义分布的等价性。

Xing Liu, Axel GandyThu, 12 Ma📊 stat

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

该论文针对质谱分子结构识别中的高误报风险，提出了一种基于风险 - 覆盖率权衡的筛选预测框架，通过评估不同不确定性量化策略，证明利用计算成本较低的一阶置信度及检索级偶然不确定性，结合分布外风险控制方法，可在保证高概率满足预设错误率约束的前提下，有效筛选出可信的分子结构注释。

Mira Jürgens, Gaetan De Waele, Morteza Rakhshaninejad, Willem WaegemanThu, 12 Ma📊 stat

Bayesian Optimization with Gaussian Processes to Accelerate Stationary Point Searches

该论文提出了一种统一的贝叶斯优化框架，利用高斯过程回归及多种扩展技术（如最优传输、变分正则化和自适应信任半径），通过单一六步代理循环高效加速势能面上极小值点、单点及双端鞍点的搜索，并辅以 Rust 代码实现以验证其在高维系统中的可扩展性与实用性。

Rohit Goswami (Institute IMX and Lab-COSMO, École polytechnique fédérale de Lausanne)Thu, 12 Ma📊 stat

Expert-Aided Causal Discovery of Ancestral Graphs

本文提出了名为 Ancestral GFlowNet (AGFN) 的多样性探索强化学习算法，该算法通过贝叶斯模型整合先验与含噪后验专家反馈，实现了对存在潜在混杂的祖先图进行分布推断，并在理论收敛性与实证表现上均优于现有基线方法。

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena RibeiroMon, 09 Ma🤖 cs.LG

Predictive Coding Networks and Inference Learning: Tutorial and Survey

这篇论文全面综述并形式化定义了基于神经科学预测编码框架的预测编码网络（PCNs），阐述了其作为比传统反向传播更具生物合理性且能统一监督与无监督学习的通用机器学习框架的潜力与优势。

Björn van Zwol, Ro Jefferson, Egon L. van den BroekMon, 09 Ma🤖 cs.AI

Theoretical Foundations of Conformal Prediction

本书旨在通过统一的语言、图示和教学视角，系统梳理并阐释共形预测及相关分布无关推断技术的核心理论基础与证明策略，以填补该领域重要研究成果分散在各类论文中导致的理解空白。

Anastasios N. Angelopoulos, Rina Foygel Barber, Stephen BatesMon, 09 Ma🔢 math

L0-Regularized Quadratic Surface Support Vector Machines

本文针对核自由二次曲面支持向量机（QSVM）参数过多导致的过拟合与解释性差问题，提出了一种通过 $\ell_0$ 正则化实现稀疏性的变体模型，并设计了一种能够产生满足一阶最优性条件解的高效惩罚分解算法，实验表明该模型在保持竞争力的同时能生成稀疏解，特别适用于信用评分等实际场景。

Ahmad Mousavi, Ramin Zandvakili, Zheming GaoMon, 09 Ma🤖 cs.LG

Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias

本文针对线性系统求解中因定义域无界导致的收敛分析难题，提出了一种变体 Polyak 步长策略，在无需限制性假设的情况下证明了熵镜像下降法的收敛性，强化了 $\ell_1$ 范数隐式偏差的界，并推广至任意凸 $L$ -光滑函数，同时提出了一种避免指数运算的替代算法。

Yura Malitsky, Alexander PoschMon, 09 Ma🤖 cs.LG