Learning under Distributional Drift: Prequential Reproducibility as an Intrinsic Statistical Resource
该论文提出了一种基于费舍尔 - 拉奥距离的内在漂移预算 ,将分布漂移分解为外生变化与策略敏感反馈,并证明了在预序可复现性中,平均漂移率 与样本量倒数共同决定了性能下界,从而在几何框架下统一刻画了外生漂移、自适应分析与绩效反馈。
335 篇论文
该论文提出了一种基于费舍尔 - 拉奥距离的内在漂移预算 ,将分布漂移分解为外生变化与策略敏感反馈,并证明了在预序可复现性中,平均漂移率 与样本量倒数共同决定了性能下界,从而在几何框架下统一刻画了外生漂移、自适应分析与绩效反馈。
该论文提出了一个统一的统计框架,揭示了合成数据在类别不平衡学习中并非总是有益,并指出在局部非对称条件下最优合成样本量取决于生成器精度与偏差方向,进而提出了通过验证集调优来确定合成样本数量的实用策略。
本文通过紧支集 Moore 复形研究了全群同调,证明了离散系数下的通用系数短正合序列并阐明了非离散系数的障碍,同时构建了基于饱和开集覆盖的 Mayer-Vietoris 长正合序列。
该论文提出了一种基于张量分解的新型统计模型,通过融合廉价的自动评分数据与少量人工标注,实现了在提示词层面的细粒度、高效且鲁棒的大语言模型评估,从而克服了传统评估中数据稀缺与自动评分对齐性差的瓶颈。
本文提出了一种融合众包平台、专家交互建模、鲁棒聚合技术及大语言模型模拟的新范式,旨在通过整合人类专家与大模型碎片化的因果知识,解决从观测数据中学习有向无环图(DAG)的难题,从而实现单一智能体无法达成的全局因果结构发现。
本文旨在修正 McInnes 等人基于 Spivak 未发表手稿提出的 UMAP 算法理论中存在的多处错误,通过提供自洽的完整推导和显式描述,厘清度量实现函子及其有限变体与 UMAP 算法之间的对应关系。
本文提出了一种名为“学习顺序森林”的方法,通过联合学习机制迭代构建反映定性属性值局部顺序关系的树结构森林,从而在隐式聚类分布中实现更准确的聚类效果。
本文提出了一种结合偏差 - 方差分析与分裂方法的基于核的梯度下降(KGD)算法自适应参数选择策略,通过引入经验有效维数概念,在理论框架下证明了该策略能实现最优泛化误差界并有效适应不同的核函数、目标函数及误差度量,从而显著优于现有方法。
本文提出了位于 -散度之外的对数矩泛函“惊异 - 勒内伊自由能”(SRFE),该泛函不仅将前向与反向 KL 散度作为奇异端点极限统一起来,还通过揭示其均值 - 方差权衡、变分特征及大偏差控制机制,阐明了这两种散度背后不同的几何结构与归纳偏置。
本文提出了一种可扩展的对比因果发现模型,通过聚合子集部分有向无环图并应用跨干预体制的对比定向规则,在仅观测到单一流行软干预的情况下,实现了从部分可识别到更精确全局一致因果结构的恢复与泛化。
本文针对具有随机状态观测延迟的强化学习问题,提出了一种结合状态增强与上置信界方法的算法,证明了其在表格马尔可夫决策过程中的 遗憾界,并给出了匹配的下界以确立该策略的极小极大最优性。
该论文通过定义并分析网络感知流形(PM),揭示了机器与人类概念在维度上存在指数级错位,指出这种高维错位是产生对抗样本的根本原因,并论证了只有实现机器与人类感知流形的维度对齐,才能从根本上解决对抗鲁棒性问题。
本文提出了 CausalMix,一种通过耦合高斯混合先验与特定数据类型解码器来生成混合类型表格数据的变分生成框架,它在保持数据分布真实性的同时实现了对重叠性、未测量混杂强度及处理效应异质性等因果机制的独立可控调节,从而有效支持因果推断的方法验证与实验设计。
本文通过实证研究证明,在基于排列的优化问题中,目标函数的代数重构(如求和与求差)会破坏无免费午餐定理所依赖的均匀采样对称性,导致算法性能排序发生显著且结构化的偏移,从而表明算法选择必须同时考虑问题类别与目标函数的具体表示形式。
本文提出了一种基于核近似和再生核希尔伯特空间理论的严谨框架,通过建立核函数与索伯列夫原生空间的联系,使神经算子能够鲁棒地处理分布外输入函数并准确捕捉函数及其导数,且该方法在流形点云表示的椭圆偏微分方程求解中得到了实证验证。
本文研究了黎曼流形上随机微分方程的几何欧拉 - 丸山离散格式,在几何与正则性条件下证明了其强收敛阶为 1/2,并据此给出了黎曼朗之万动力学采样算法的 Wasserstein 误差界。
本文通过引入伴随分布扩展了 Landsman 等人(2013)的结果,推导出了有界支撑-高斯分布的新 Stein 恒等式及 Bonnet-Price 型定理,从而构建了形式简洁且易于实现的梯度估计器,实验表明该方法能有效降低梯度估计方差,适用于贝叶斯深度学习等场景。
本文证明了在温和的正则性条件下,分数匹配扩散模型能够利用数据的内在低维结构(通过-Wasserstein 维度刻画),在无需紧支集或流形假设的情况下,以优于环境维度的收敛速率学习未知分布,从而有效缓解了维数灾难并建立了与生成对抗网络及最优传输理论的深刻联系。
本文针对逆上下文多臂老虎机问题,提出了一种名为“两阶段后缀模仿”的框架,通过舍弃初始探索阶段数据并仅利用后续模仿阶段数据进行经验风险最小化,成功使无法获取奖励的观察者能够从非平稳的动作数据中以的收敛速率恢复最优策略,实现了与完全知晓奖励的学习者相当的性能。
本文提出了名为 R-Design 的框架,通过利用观测数据作为先验并聚焦于估计偏差残差(Active Residual Learning),而非从零开始学习因果效应,从而在理论上证明了其收敛速度更快且信息利用更高效,并在实验中显著优于传统基线方法。