When Machine Learning Gets Personal: Evaluating Prediction and Explanation

该论文提出了一个统一框架来量化个性化对机器学习模型预测和解释的影响,揭示了二者可能产生分歧,并推导了检测个性化效应的统计界限,指出在特定数据集下某些效果本质上不可检验,从而强调了联合评估预测与解释及设计具备充分信息的数据集的重要性。

Louisa Cornelis, Guillermo Bernárdez, Haewon Jeong, Nina MiolaneWed, 11 Ma🤖 cs.LG

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

本文提出了一种基于无似然推断的端到端 Real2Sim2Real 框架,通过利用视觉和本体感知数据估计可变形线性物体(DLO)物理参数的后验分布以进行域随机化训练,实现了无需微调即可将模拟中训练的策略零样本迁移至真实世界的 DLO 操控任务。

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

本文提出了一种将高斯 - 伯努利受限玻尔兹曼机(GB-RBM)中的二值隐单元扩展为多状态 Potts 单元的“高斯 - 多项式受限玻尔兹曼机”(GM-RBM),并通过理论推导与实验验证表明,该模型在保持训练成本相当的同时,能够利用更丰富的离散潜在状态空间,在联想记忆和结构化推理任务中实现优于或媲美传统连续隐变量模型的召回性能。

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke TheogarajanWed, 11 Ma🤖 cs.LG

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

该论文提出了一种系统性的评估方法,通过测试不同规模模型与多种后训练量化技术,揭示了在资源受限的边缘设备上,约 3.5 有效比特/权重(BPW)是性能关键阈值,且高量化大模型通常优于小模型,同时为优化边缘端 LLM 部署提供了具体指南。

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong XuWed, 11 Ma🤖 cs.LG

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

本文提出了 FrontierCO 基准,通过引入涵盖八类组合优化问题、源自真实竞赛与数据集且规模高达千万级节点的实例,对 16 种机器学习求解器进行了严格评估,揭示了其在大规模真实场景下与经典求解器之间存在的显著性能差距及特定优势。

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming YangWed, 11 Ma🤖 cs.LG

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI