The Role of Feature Interactions in Graph-based Tabular Deep Learning
该论文通过合成数据集研究发现,现有的基于图的表格深度学习(GTDL)方法虽旨在通过建模特征交互来提升预测,却未能有效恢复真实的图结构,而强制引入真实交互结构后预测性能显著提升,从而强调了准确建模图结构对于提升预测精度的关键作用。
329 篇论文
该论文通过合成数据集研究发现,现有的基于图的表格深度学习(GTDL)方法虽旨在通过建模特征交互来提升预测,却未能有效恢复真实的图结构,而强制引入真实交互结构后预测性能显著提升,从而强调了准确建模图结构对于提升预测精度的关键作用。
该论文提出了一种基于 Wasserstein 梯度流的新型算法,通过时间离散化和最小批量最优传输,实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算,并在多个领域的基准测试中确立了新的最先进水平。
该论文提出了一种名为“Mercer 先验”的新方法,通过利用协方差核的 Mercer 表示直接在神经网络参数上定义先验分布,使贝叶斯神经网络能够生成近似高斯过程的样本,从而在保持可扩展性的同时实现具有可解释性的不确定性量化。
该论文提出了一种名为“捷径不变性”的潜在空间正则化方法,通过在解耦潜在空间中识别捷径对齐轴并注入各向异性噪声来实施定向雅可比正则化,从而在不依赖捷径标签或冲突样本的情况下,有效抑制捷径学习并提升模型的分布外泛化能力。
本文提出了稀疏各向同性 Shapley 回归(SISR)框架,通过联合学习单调变换以恢复可加性并施加 L0 稀疏约束,有效解决了传统 Shapley 值在处理非线性依赖和特征选择时的失真与计算效率问题,为高维非线性可解释性提供了理论坚实且实用的解决方案。
本文提出了一种基于三角形感知图滤过和持久图描述符的参数化空间图粗化方法,通过折叠短边在显著减小图规模的同时,有效保留了原始空间图的关键拓扑特征,并具备旋转、平移及缩放不变性。
本文针对高维稀疏离线强化学习中的强数据污染问题,提出了一种基于稀疏鲁棒估计器预言机的演员 - 评论家方法,克服了传统最小二乘价值迭代在稀疏场景下的局限性,首次在高维稀疏马尔可夫决策过程及单策略集中度覆盖假设下,给出了具有抗污染能力的非平凡理论保证。
该论文提出了一种将 amortized Bayesian inference(ABI)框架适配于图数据的两阶段方法,通过结合置换不变的图编码器与灵活的后验估计网络,实现了对节点、边及图级别参数的高效、无似然贝叶斯推断,并在合成数据及生物和物流领域的真实数据上验证了其参数恢复与校准性能。
本文提出了一种可扩展的多任务高斯过程模型,通过引入完全可分离核结构来联合处理函数型协变量与多任务相关性,利用克罗内克积结构实现高效计算,并在铆接装配等复杂机械系统中以少量样本实现了优于单任务模型的精准预测与不确定性量化。
本文提出了一种基于非等体积分区的新设计,证明了其产生的分层采样点集在期望星不一致性上优于传统的抖动采样,并推导出了更优的显式上界,从而为高维数值积分中应用非等体积分区提供了理论基础。
该论文提出了基于 Khatri-Rao 积的聚类新范式,通过假设质心由多个简洁的“原型质心”交互生成,分别构建了 Khatri-Rao k-Means 算法与深度聚类框架,从而在保持数据摘要准确性的同时显著提升了其简洁性。
该论文提出了一种潜在自编码器集合卡尔曼滤波(LAE-EnKF)方法,通过在具有线性稳定动力学的潜在空间中重构数据同化问题,有效解决了标准集合卡尔曼滤波在处理强非线性系统时的性能瓶颈,并在保持计算效率的同时显著提升了同化精度与稳定性。
本文提出了 NEST,一种结合结构化动态规划的网络、计算与内存感知设备放置框架,通过统一建模并行策略、网络拓扑及内存约束,显著提升了分布式深度学习训练的吞吐量、内存效率与可扩展性。
本文提出了 CREDO 方法,通过先构建能反映认知不确定性的可信集包络、再应用分箱共形校准,实现了兼具分布无关覆盖率保证与可解释性(可分解为偶然噪声、认知膨胀及校准松弛)的回归预测区间。
该论文研究了具有无界方差(有限 阶矩,)和 -Hölder 连续市场价值函数的上下文双边贸易问题,通过扩展自界性质并结合截断均值估计,确定了最小最大遗憾的精确收敛速率,该速率在 时退化为经典非参数速率,而在 时趋于线性速率。
本文提出了一种统一的变分、格林函数及特征线方法框架,用于构建适配输运方程的再生核,以通过多核学习自动学习并收敛逼近非线性动力系统的 Koopman 特征函数。
该论文通过统一的贝叶斯框架分析表明,在属性感知场景下公平性约束能改善弱势群体结果,但在属性盲场景下,公平性可能导致“向下拉平”现象,使一个或两个群体的结果同时恶化。
该论文研究了基于策略梯度的后训练方法,证明了在基础模型具备非平凡似然时,该方法能以最优样本复杂度提升性能,但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍,而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。
该论文揭示了仅基于平均处理效应(ATE)为零的监管标准存在“因果掩盖”漏洞,即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待,且此类隐蔽的不公难以被检测,因此主张应将公平性监管从决策层面提升至模型层面。
该论文针对匹配平台中因过度集中匹配导致用户流失的问题,提出了结合“臂满意度”的新在线学习问题“组合分配多臂老虎机(CAB)”,并设计了基于置信上界和汤普森采样的算法,在广义线性模型下实现了近似后悔值上界,并通过实验验证了其有效性。