Cross-Validation in Bipartite Networks
本文针对二部网络模型选择问题,提出了一种能解决单侧欠拟合与过拟合矛盾并首次提供一致性保证的惩罚交叉验证方法,其性能优于传统模度及投影方法且能自然保留节点集间的非对称性。
262 篇论文
本文针对二部网络模型选择问题,提出了一种能解决单侧欠拟合与过拟合矛盾并首次提供一致性保证的惩罚交叉验证方法,其性能优于传统模度及投影方法且能自然保留节点集间的非对称性。
本文提出了一种基于惩罚样条和自动微分技术的半参数非线性混合效应模型估计方法,该方法通过拉普拉斯近似处理随机效应积分,在模拟研究和婴儿身高增长案例中展现了优于现有方法的推断性能与计算效率。
该论文提出了一种基于动态贝叶斯借用和同时可信区间的统计方法,旨在将历史对照数据纳入二分类终点(如长期致癌性研究)的多臂试验中,从而在有效控制族系错误率并抵御数据漂移的同时,显著减少实验动物的使用量。
本文提出了一种基于自由能的社会多臂老虎机学习算法,使智能体能够在无需奖励信息或先验规范的情况下,自主评估并有效利用非专家及多样化同伴的行为策略,从而在保持对数遗憾的同时显著提升个体学习性能。
该论文提出了一种名为 CIM 的两阶段框架,通过将高维路径依赖动态压缩为低维暴露映射,在观测数据上学习形状约束的响应函数并采用贪心策略,从而在预算约束下最大化稳态因果影响,并为结果估计和近似比提供了理论保证。
本文证明了在-集半带问题中,结合特定分布(Fréchet 和 Pareto)与几何重采样的 Follow-the-Perturbed-Leader (FTPL) 算法,不仅能在对抗和随机设置下分别达到最优的对数遗憾,实现“双世界”最优性,还将计算复杂度从降低至。
该论文从学习理论视角出发,通过引入“重放对手”模型,精细刻画了生成式语言模型在训练数据混入自身历史输出(即模型崩溃)时的学习极限,揭示了重放机制虽不影响最强的一致性生成,却会破坏较弱的非一致性及极限生成能力,从而从理论上验证了数据清洗等实践策略的有效性及其局限性。
该论文提出了一种基于广义估计方程的稳健序贯假设检验新方法,该方法在无需依赖损害稳健性的建模假设的前提下,能够检验更广泛的假设、提供联合协方差矩阵的渐近理论、构建更精确的疗效边界,并适用于包含缺失数据的纵向及组内相关数据。
本文旨在为新兴的四元数机器学习领域奠定基础,系统阐述了用于建模四元值随机过程的增强统计理论、利用该统计特性的广泛线性模型、算法推导所需的四元数微积分与代数,以及实际应用中至关重要的均方估计方法。
本文提出了一种基于最大均值差异(MMD)分布等价检验的“先检验后合并”新框架,通过引入部分自助法和置换法来严格控制在异质性历史对照数据融合过程中的第一类错误率,从而在提升统计功效的同时确保因果推断的有效性。
该论文针对多治疗场景下的个体治疗效应估计难题,提出了一种基于最优压缩的因果表示学习框架,通过推导新的泛化界确定最优平衡权重,并设计了具有 O(1) 可扩展性的“治疗聚合”策略及生成式架构 Multi-Treatment CausalEGM,在显著降低计算复杂度的同时实现了高精度的估计效果。
本文提出了 EnTransformer,一种将随机学习范式"engression"与 Transformer 架构相结合的新型深度生成式框架,通过引入随机噪声并优化基于能量的评分目标,在不依赖参数假设的情况下实现了多变量时间序列的相干概率预测,并在多个基准数据集上展现出优于现有模型的校准性能。
该论文提出了一种名为分布平衡设计(DBD)的新型概率抽样方法,通过优化总体排序并最小化样本与总体辅助分布间的能量距离,实现了比现有方法更优的分布拟合度,从而显著提升了资源受限场景下(如生态与林业调查)估计的可靠性。
本文提出了一种新颖的贝叶斯模型校准方法,通过将模型差异重新定义为集成在模拟器内部的参数不确定性(而非 Kennedy 和 O'Hagan 方法中独立的“包罗万象”差异项),并利用高斯过程代理模型确保计算可行性,成功应用于将离散位错动力学模拟器的预测结果校准至分子动力学观测数据。
本文提出了局部邻接谱嵌入(LASE)方法,通过加权谱分解揭示网络中的局部低维结构,在理论上证明了其能平衡局部化统计成本与截断误差,并在实验中展示了其在局部重建、可视化及构建高保真全局视图方面的优越性。
本文首次建立了多轮次预条件随机梯度下降(PSGD)的平均算法稳定性理论,揭示了人口风险曲率、噪声几何与预条件策略之间的权衡关系,并证明了不当的预条件选择会导致基于有效维度的泛化与优化性能次优。
本文针对具有低秩加稀疏结构的高维 Lévy 驱动 Ornstein-Uhlenbeck 过程,提出了一种基于核范数与 惩罚的凸估计量,并在特定正则性条件下推导了其非渐近 Oracle 不等式,证明了该方法能在保持离散化偏差的同时,通过利用结构特性显著改善估计风险对维度的依赖关系。
该论文通过数学证明和数值实验表明,无隐藏层的化学反应网络在分类任务(如手写数字识别)上比需要隐藏层的脉冲神经网络具有更高的学习效率和准确性,并提供了相应的理论界限分析。
本文提出了一种基于 Wasserstein 梯度流的新型批量贝叶斯最优实验设计方法,通过将优化问题提升至概率测度空间并引入熵正则化,利用粒子算法有效解决了高维非凸批量设计中的优化难题。
该论文基于双模态混合抽象,从理论上量化了生成模型持续后训练中的遗忘现象,揭示了前向与反向 KL 散度在质量遗忘和旧分量漂移上的不同机制,并阐明了重放策略及现有近于策略方法如何受散度方向、几何重叠度及采样机制的影响。