cs.LG 篇论文 | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

本文提出了概念漂移引导的 LayerNorm 微调（CDGLT）框架，通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略，在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li2026-03-11🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

该论文提出了步式引导策略优化（SGPO）框架，通过引入步式评判模型增强组内响应多样性，有效解决了 GRPO 在全部样本错误时无法更新策略的局限性，从而提升了大语言模型在推理任务中的训练效率与性能。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

本文提出了一种将高斯 - 伯努利受限玻尔兹曼机（GB-RBM）中的二值隐单元扩展为多状态 Potts 单元的“高斯 - 多项式受限玻尔兹曼机”（GM-RBM），并通过理论推导与实验验证表明，该模型在保持训练成本相当的同时，能够利用更丰富的离散潜在状态空间，在联想记忆和结构化推理任务中实现优于或媲美传统连续隐变量模型的召回性能。

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

该论文提出了一种名为 JULI 的黑盒越狱方法，它仅利用目标大语言模型预测的 Token 对数概率，通过引入微小的 BiasNet 插件操纵概率分布，从而在无需访问模型权重或生成过程的情况下有效突破 API 调用模型的安全限制。

Jesson Wang, Zhanhao Hu, David Wagner2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

本文提出利用对称不变量作为原子单元来发现符号微分方程，通过确保解满足指定对称性，有效解决了现有方法搜索空间过大及违背物理定律的问题，从而更准确高效地推导出符合物理规律的简洁可解释方程。

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本文提出了 UltraEdit，这是一种无需训练、主体和记忆的高效终身模型编辑方法，通过单步参数更新和终身归一化策略，在显著降低显存需求的同时实现了超大规模编辑，并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

该论文提出了一种系统性的评估方法，通过测试不同规模模型与多种后训练量化技术，揭示了在资源受限的边缘设备上，约 3.5 有效比特/权重（BPW）是性能关键阈值，且高量化大模型通常优于小模型，同时为优化边缘端 LLM 部署提供了具体指南。

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

本文提出了名为 SATURN 的基于布尔可满足性（SAT）问题的强化学习框架，通过构建可扩展、可验证且难度可控的 SAT 任务课程，有效提升了大语言模型在 SAT 求解及数学、编程等通用推理任务中的表现。

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

本文提出了 FrontierCO 基准，通过引入涵盖八类组合优化问题、源自真实竞赛与数据集且规模高达千万级节点的实例，对 16 种机器学习求解器进行了严格评估，揭示了其在大规模真实场景下与经典求解器之间存在的显著性能差距及特定优势。

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本文作为首篇针对移动服务机器人的系统性综述，深入探讨了基础模型如何通过语言控制、多模态融合及不确定性推理等机制解决核心挑战，并分析了其在家庭、医疗等场景的应用、伦理影响及未来研究方向。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

本文提出了一种名为 SemiCP 的半监督共形预测新范式，通过引入利用无标签数据生成非一致性分数的最近邻匹配（NNM）方法，在标签稀缺场景下显著降低了覆盖率偏差并提升了不确定性量化的稳定性。

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Pure Exploration with Infinite Answers

该论文研究了答案集可能为无限的纯探索问题，推导了实例依赖的下界，指出了现有方法在渐近最优性上的局限，并提出了一种名为“粘性序列 Track-and-Stop"的通用框架以实现渐近最优。

Riccardo Poiani, Martino Bernasconi, Andrea Celli2026-03-11🤖 cs.LG

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

本文提出了名为 TSRating 的统一框架，通过利用大语言模型（LLM）的预训练知识进行质量判断，并结合元学习与 signSGD 优化策略训练专用评分模型 TSRater，从而实现对跨领域多样化时间序列数据的高效、准确且具备强适应性的质量评级。

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法，通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势，从而解决传统全局优势共享导致的优化不足问题，在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

该论文提出了两种新型无模型强化学习算法（Q-EarlySettled-LowCost 和 FedQ-EarlySettled-LowCost），首次同时实现了近最优遗憾、关于状态与动作数量的线性预热成本以及对数级策略切换或通信开销，从而显著降低了单智能体及联邦强化学习中的实际部署代价。

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

该论文提出了名为 ChannelTokenFormer 的 Transformer 框架，旨在通过统一处理通道依赖、异步采样和缺失值这三大现实挑战，显著提升多变量时间序列预测在复杂真实场景下的鲁棒性与准确性。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

cs.LG