When Machine Learning Gets Personal: Evaluating Prediction and Explanation
该论文提出了一个统一框架来量化个性化对机器学习模型预测和解释的影响,揭示了二者可能产生分歧,并推导了检测个性化效应的统计界限,指出在特定数据集下某些效果本质上不可检验,从而强调了联合评估预测与解释及设计具备充分信息的数据集的重要性。
2167 篇论文
该论文提出了一个统一框架来量化个性化对机器学习模型预测和解释的影响,揭示了二者可能产生分歧,并推导了检测个性化效应的统计界限,指出在特定数据集下某些效果本质上不可检验,从而强调了联合评估预测与解释及设计具备充分信息的数据集的重要性。
该论文通过引入数据集的“空间签名”概念,将半值法数据估值中的效用选择问题转化为低维空间中的线性泛函问题,并提出了一种实用的鲁棒性度量方法,以量化和评估效用变化对数据估值结果的影响。
本文提出了一种基于无似然推断的端到端 Real2Sim2Real 框架,通过利用视觉和本体感知数据估计可变形线性物体(DLO)物理参数的后验分布以进行域随机化训练,实现了无需微调即可将模拟中训练的策略零样本迁移至真实世界的 DLO 操控任务。
本文提出了一种基于特征重要性重缩放(FIR)的理论方法,通过根据特征离散度调整其贡献来抑制噪声,从而显著提升了高维或含噪高斯混合数据中聚类有效性指标与真实标签之间的相关性及评估鲁棒性。
本文提出了 HyConEx,这是一种专为表格数据设计的基于深度超网络的分类模型,它能够同时输出预测结果和将样本导向替代类别的局部反事实解释,从而实现了预测与解释的一体化。
本文通过混合整数线性规划构建全局最优模型树,在多个基准数据集上验证了其在保持高可解释性的同时,能以极小的树结构实现与贪婪算法及主流模型相媲美的预测精度,并进一步探讨了多变量分裂对准确率与可解释性的权衡影响。
本文从决策理论的后果主义视角出发,批判了机器学习领域过度依赖固定阈值评估的现状,提出应优先采用 Brier 分数等严格评分规则,并通过构建决策框架、开发 Python 工具包及改进算法来弥合理论与实践的差距。
本文提出了概念漂移引导的 LayerNorm 微调(CDGLT)框架,通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略,在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。
该论文提出了步式引导策略优化(SGPO)框架,通过引入步式评判模型增强组内响应多样性,有效解决了 GRPO 在全部样本错误时无法更新策略的局限性,从而提升了大语言模型在推理任务中的训练效率与性能。
本文提出了一种将高斯 - 伯努利受限玻尔兹曼机(GB-RBM)中的二值隐单元扩展为多状态 Potts 单元的“高斯 - 多项式受限玻尔兹曼机”(GM-RBM),并通过理论推导与实验验证表明,该模型在保持训练成本相当的同时,能够利用更丰富的离散潜在状态空间,在联想记忆和结构化推理任务中实现优于或媲美传统连续隐变量模型的召回性能。
该论文提出了一种名为 JULI 的黑盒越狱方法,它仅利用目标大语言模型预测的 Token 对数概率,通过引入微小的 BiasNet 插件操纵概率分布,从而在无需访问模型权重或生成过程的情况下有效突破 API 调用模型的安全限制。
本文提出利用对称不变量作为原子单元来发现符号微分方程,通过确保解满足指定对称性,有效解决了现有方法搜索空间过大及违背物理定律的问题,从而更准确高效地推导出符合物理规律的简洁可解释方程。
本文提出了 UltraEdit,这是一种无需训练、主体和记忆的高效终身模型编辑方法,通过单步参数更新和终身归一化策略,在显著降低显存需求的同时实现了超大规模编辑,并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。
该论文提出了一种系统性的评估方法,通过测试不同规模模型与多种后训练量化技术,揭示了在资源受限的边缘设备上,约 3.5 有效比特/权重(BPW)是性能关键阈值,且高量化大模型通常优于小模型,同时为优化边缘端 LLM 部署提供了具体指南。
本文提出了名为 SATURN 的基于布尔可满足性(SAT)问题的强化学习框架,通过构建可扩展、可验证且难度可控的 SAT 任务课程,有效提升了大语言模型在 SAT 求解及数学、编程等通用推理任务中的表现。
本文提出了 FrontierCO 基准,通过引入涵盖八类组合优化问题、源自真实竞赛与数据集且规模高达千万级节点的实例,对 16 种机器学习求解器进行了严格评估,揭示了其在大规模真实场景下与经典求解器之间存在的显著性能差距及特定优势。
本文提出了一种名为 SemiCP 的半监督共形预测新范式,通过引入利用无标签数据生成非一致性分数的最近邻匹配(NNM)方法,在标签稀缺场景下显著降低了覆盖率偏差并提升了不确定性量化的稳定性。
该论文研究了答案集可能为无限的纯探索问题,推导了实例依赖的下界,指出了现有方法在渐近最优性上的局限,并提出了一种名为“粘性序列 Track-and-Stop"的通用框架以实现渐近最优。
本文提出了名为 TSRating 的统一框架,通过利用大语言模型(LLM)的预训练知识进行质量判断,并结合元学习与 signSGD 优化策略训练专用评分模型 TSRater,从而实现对跨领域多样化时间序列数据的高效、准确且具备强适应性的质量评级。
本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。