RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

该论文提出了一种名为 RIE-Greedy 的新方法,通过利用基于交叉验证的模型正则化过程中固有的随机性来诱导类汤普森采样的探索行为,从而在无需复杂假设的情况下,使纯贪婪策略在复杂奖励模型和大规模业务场景中也能实现高效探索。

Tong Li, Thiago de Queiroz Casanova, Eric M. Schwartz, Victor Kostyuk, Dehan Kong, Joseph J. WilliamsFri, 13 Ma📊 stat

On the Robustness of Langevin Dynamics to Score Function Error

该论文指出,尽管扩散模型在小 L2L^2 误差下能高效采样,但朗之万动力学对得分函数估计误差缺乏鲁棒性,即使在简单高维分布中,任意多项式时间内的采样结果也会因微小的估计误差而与目标分布产生巨大的总变差距离,从而论证了在实际应用中应优先选择扩散模型并慎用基于估计得分的朗之万动力学。

Daniel Yiming Cao, August Y. Chen, Karthik Sridharan, Yuchen WuFri, 13 Ma🤖 cs.LG

Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach

本文提出了一种基于自由能的社会多臂老虎机学习算法,使智能体能够在无需奖励信息或先验规范的情况下,自主评估并有效利用非专家及多样化同伴的行为策略,从而在保持对数遗憾的同时显著提升个体学习性能。

Erfan Mirzaei, Seyed Pooya Shariatpanahi, Alireza Tavakoli, Reshad Hosseini, Majid Nili AhmadabadiFri, 13 Ma📊 stat

A Further Efficient Algorithm with Best-of-Both-Worlds Guarantees for mm-Set Semi-Bandit Problem

本文证明了在mm-集半带问题中,结合特定分布(Fréchet 和 Pareto)与几何重采样的 Follow-the-Perturbed-Leader (FTPL) 算法,不仅能在对抗和随机设置下分别达到最优的O(mdT)O(\sqrt{mdT})对数遗憾,实现“双世界”最优性,还将计算复杂度从O(d2)O(d^2)降低至O(md(log(d/m)+1))O(md(\log(d/m)+1))

Botao Chen, Jongyeong Lee, Chansoo Kim, Junya HondaFri, 13 Ma📊 stat

Language Generation with Replay: A Learning-Theoretic View of Model Collapse

该论文从学习理论视角出发,通过引入“重放对手”模型,精细刻画了生成式语言模型在训练数据混入自身历史输出(即模型崩溃)时的学习极限,揭示了重放机制虽不影响最强的一致性生成,却会破坏较弱的非一致性及极限生成能力,从而从理论上验证了数据清洗等实践策略的有效性及其局限性。

Giorgio Racca, Michal Valko, Amartya SanyalFri, 13 Ma📊 stat

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

本文提出了 EnTransformer,一种将随机学习范式"engression"与 Transformer 架构相结合的新型深度生成式框架,通过引入随机噪声并优化基于能量的评分目标,在不依赖参数假设的情况下实现了多变量时间序列的相干概率预测,并在多个基准数据集上展现出优于现有模型的校准性能。

Rajdeep Pathak, Rahul Goswami, Madhurima Panja, Palash Ghosh, Tanujit ChakrabortyFri, 13 Ma📊 stat