cs.LG 篇论文 | Gist.Science

Astromer 2

本文介绍了专为光变曲线设计的 Astromer 2 基础模型，该模型通过在 MACHO 巡天数据上进行自监督预训练并引入加权样本嵌入技术，在分类任务中显著优于其前代模型，特别是在小样本场景下展现了卓越的泛化能力。

Cristobal Donoso-Oliva, Ignacio Becker, Pavlos Protopapas + 3 more2026-03-11🔭 astro-ph

When Machine Learning Gets Personal: Evaluating Prediction and Explanation

该论文提出了一个统一框架来量化个性化对机器学习模型预测和解释的影响，揭示了二者可能产生分歧，并推导了检测个性化效应的统计界限，指出在特定数据集下某些效果本质上不可检验，从而强调了联合评估预测与解释及设计具备充分信息的数据集的重要性。

Louisa Cornelis, Guillermo Bernárdez, Haewon Jeong, Nina Miolane2026-03-11🤖 cs.LG

On the Impact of the Utility in Semivalue-based Data Valuation

该论文通过引入数据集的“空间签名”概念，将半值法数据估值中的效用选择问题转化为低维空间中的线性泛函问题，并提出了一种实用的鲁棒性度量方法，以量化和评估效用变化对数据估值结果的影响。

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick Loiseau2026-03-11🤖 cs.AI

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

本文提出了一种基于无似然推断的端到端 Real2Sim2Real 框架，通过利用视觉和本体感知数据估计可变形线性物体（DLO）物理参数的后验分布以进行域随机化训练，实现了无需微调即可将模拟中训练的策略零样本迁移至真实世界的 DLO 操控任务。

Georgios Kamaras, Subramanian Ramamoorthy2026-03-11🤖 cs.LG

Improving clustering quality evaluation in noisy Gaussian mixtures

本文提出了一种基于特征重要性重缩放（FIR）的理论方法，通过根据特征离散度调整其贡献来抑制噪声，从而显著提升了高维或含噪高斯混合数据中聚类有效性指标与真实标签之间的相关性及评估鲁棒性。

Renato Cordeiro de Amorim, Vladimir Makarenkov2026-03-11🤖 cs.LG

Functional Unit: A New Perspective on Materials Science Research Paradigms

本文提出了“功能单元”这一新概念，旨在弥合传统“成分 - 微观结构”范式向数据驱动的人工智能范式转型过程中的认知鸿沟，通过梳理研究范式的演变、阐述功能单元在多尺度设计中的关键作用，并探讨其融入 AI 驱动材料创新的路径与挑战，从而为材料科学研究提供新视角。

Caichao Ye, Tao Feng, Weishu Liu + 1 more2026-03-11🔬 cond-mat.mtrl-sci

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

本文提出了 HyConEx，这是一种专为表格数据设计的基于深度超网络的分类模型，它能够同时输出预测结果和将样本导向替代类别的局部反事实解释，从而实现了预测与解释的一体化。

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek Smieja2026-03-11🤖 cs.AI

Experiments with Optimal Model Trees

本文通过混合整数线性规划构建全局最优模型树，在多个基准数据集上验证了其在保持高可解释性的同时，能以极小的树结构实现与贪婪算法及主流模型相媲美的预测精度，并进一步探讨了多变量分裂对准确率与可解释性的权衡影响。

Sabino Francesco Roselli, Eibe Frank2026-03-11🤖 cs.LG

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

本文从决策理论的后果主义视角出发，批判了机器学习领域过度依赖固定阈值评估的现状，提出应优先采用 Brier 分数等严格评分规则，并通过构建决策框架、开发 Python 工具包及改进算法来弥合理论与实践的差距。

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

本文提出了概念漂移引导的 LayerNorm 微调（CDGLT）框架，通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略，在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li2026-03-11🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

该论文提出了步式引导策略优化（SGPO）框架，通过引入步式评判模型增强组内响应多样性，有效解决了 GRPO 在全部样本错误时无法更新策略的局限性，从而提升了大语言模型在推理任务中的训练效率与性能。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

本文提出了一种将高斯 - 伯努利受限玻尔兹曼机（GB-RBM）中的二值隐单元扩展为多状态 Potts 单元的“高斯 - 多项式受限玻尔兹曼机”（GM-RBM），并通过理论推导与实验验证表明，该模型在保持训练成本相当的同时，能够利用更丰富的离散潜在状态空间，在联想记忆和结构化推理任务中实现优于或媲美传统连续隐变量模型的召回性能。

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

该论文提出了一种名为 JULI 的黑盒越狱方法，它仅利用目标大语言模型预测的 Token 对数概率，通过引入微小的 BiasNet 插件操纵概率分布，从而在无需访问模型权重或生成过程的情况下有效突破 API 调用模型的安全限制。

Jesson Wang, Zhanhao Hu, David Wagner2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

本文提出利用对称不变量作为原子单元来发现符号微分方程，通过确保解满足指定对称性，有效解决了现有方法搜索空间过大及违背物理定律的问题，从而更准确高效地推导出符合物理规律的简洁可解释方程。

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本文提出了 UltraEdit，这是一种无需训练、主体和记忆的高效终身模型编辑方法，通过单步参数更新和终身归一化策略，在显著降低显存需求的同时实现了超大规模编辑，并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

该论文提出了一种系统性的评估方法，通过测试不同规模模型与多种后训练量化技术，揭示了在资源受限的边缘设备上，约 3.5 有效比特/权重（BPW）是性能关键阈值，且高量化大模型通常优于小模型，同时为优化边缘端 LLM 部署提供了具体指南。

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

本文提出了名为 SATURN 的基于布尔可满足性（SAT）问题的强化学习框架，通过构建可扩展、可验证且难度可控的 SAT 任务课程，有效提升了大语言模型在 SAT 求解及数学、编程等通用推理任务中的表现。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

本文提出了 FrontierCO 基准，通过引入涵盖八类组合优化问题、源自真实竞赛与数据集且规模高达千万级节点的实例，对 16 种机器学习求解器进行了严格评估，揭示了其在大规模真实场景下与经典求解器之间存在的显著性能差距及特定优势。

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本文作为首篇针对移动服务机器人的系统性综述，深入探讨了基础模型如何通过语言控制、多模态融合及不确定性推理等机制解决核心挑战，并分析了其在家庭、医疗等场景的应用、伦理影响及未来研究方向。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

本文提出了一种名为 SemiCP 的半监督共形预测新范式，通过引入利用无标签数据生成非一致性分数的最近邻匹配（NNM）方法，在标签稀缺场景下显著降低了覆盖率偏差并提升了不确定性量化的稳定性。

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG