cs.LG 篇论文 | Gist.Science

Not all tokens are needed(NAT): token efficient reinforcement learning

本文提出了 NAT（Not All Tokens Are Needed）框架，通过基于 Horvitz-Thompson 重加权的无偏部分 Token 策略梯度估计器，仅利用生成 Token 的子集进行强化学习更新，在保持数学推理等基准任务性能与全 Token 训练相当的同时，显著降低了长思维链场景下的计算成本与显存占用。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

本文提出了 GraphSkill，这是一种文档引导的层次化检索增强编码框架，通过利用文档层级结构进行检索以及引入自调试智能体来修复逻辑错误，从而显著提升了大语言模型在复杂图推理任务中的代码生成质量与效率。

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

该论文揭示了当前最先进的过程奖励模型（PRMs）在对抗性优化下存在系统性漏洞，指出其实际上更倾向于检测语言流畅度而非验证逻辑推理，并为此提出了三层诊断框架及相应的评估工具以量化和缓解此类风险。

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

本文利用 PJM 小时能耗数据，通过对比 ARIMA、LSTM、BiLSTM 和 Transformer 四种模型，证实了基于自注意力机制的 Transformer 模型在 24 小时短期电力负荷预测中凭借 3.8% 的 MAPE 取得了最优的精度与鲁棒性。

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

本文综述了将组相对策略优化（GRPO）扩展至生成模型的 Flow-GRPO 框架，系统梳理了其在奖励设计、采样效率等算法层面的改进，以及在图像、视频、音频、3D 和具身智能等多模态生成任务中的应用进展，并展望了该通用对齐框架面临的挑战。

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

本文提出了探索空间理论（EST），通过将知识空间理论形式化地移植到基于位置的推荐系统中，利用格论和形式概念分析建立了兴趣点间先决依赖关系的数学基础，并据此构建了具备线性时间复杂度、推荐有效性保证及可解释性等结构优势的探索空间推荐系统（ESRS）。

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

该论文提出了一种基于集体学习的图卷积网络方法，通过整合相邻路段特征与观测路段间的依赖关系，有效解决了路面状况数据中系统性缺失值的插补问题。

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

该论文提出了 Grouter 框架，通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器，成功将路由优化与权重更新解耦，从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

本文针对在线杂货购物中重复购买模式与复杂商品关系的挑战，提出了一种名为 T-REX 的基于 Transformer 的架构，通过动态序列采样、自适应位置编码及类别级建模等创新，有效捕捉短期篮内依赖与长期用户偏好，从而在亚马逊在线杂货业务中显著提升了个性化品类推荐及下一篮预测的准确性。

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

本文提出了一种针对时序交易网络的防泄漏因果图特征提取协议，通过构建仅利用历史边信息的可解释结构描述符，在 Elliptic 数据集上验证了其在保持高检测性能的同时，能有效补充交易属性并增强欺诈检测流程的可解释性与风险上下文分析能力。

Hamideh Khaleghpour, Brett McKinney2026-03-10🤖 cs.LG

A new Uncertainty Principle in Machine Learning

该论文提出机器学习中的多项式搜索问题存在一种新的“不确定性原理”，即最小值越尖锐，其周围的梯度下降路径（峡谷）就越平坦，导致优化陷入局部极小，这一现象揭示了机器学习在科学应用中的本质属于物理学范畴，并扩展了传统傅里叶分析中的不确定性原理。

V. Dolotin, A. Morozov2026-03-10🤖 cs.LG

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

该研究通过系统实验表明，小语言模型在图属性推理任务中的表现高度依赖于输入表示方式（如保留邻域结构）和推理策略（如多分支推理），而不仅仅取决于模型规模。

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench，涵盖正常与异常设备状态及行为上下文，评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

该论文提出了名为 HEARTS 的统一基准，旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力，研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题，从而为开发下一代医疗推理智能体提供了标准化测试平台。

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

本文提出了 RECAP 方法，这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略，通过局部突触可塑性规则实现无需反向传播的鲁棒识别，并在未见过的图像噪声下展现出优异的泛化能力。

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患，即被剪枝的权重位置本身会泄露关键信息，使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念，并据此提出了相应的防御策略。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

SR-TTT 通过引入基于损失门控的稀疏记忆机制，将高惊异度的关键令牌动态路由至精确注意力残差缓存，从而在保持 O(1) 内存占用的同时解决了传统测试时训练（TTT）模型在精确回忆任务中的灾难性遗忘问题。

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

本文全面综述了量子深度学习（QDL），通过界定其操作定义与四大范式，系统梳理了从理论原理、软硬件实现到实际应用的现状，批判性评估了量子优势并分析了关键瓶颈，旨在为研究人员提供从近期演示迈向可扩展容错实现的验证导向路线图。

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

本文提出了一种基于自适应信任评分机制的联邦学习框架，通过利用频率响应数据的频谱特征来解读骨愈合阶段，有效解决了分布式医疗传感环境中不可靠或对抗性参与者带来的安全挑战，从而在保障模型完整性的同时提升了训练稳定性与预测性能。

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

本文提出了 HURRI-GAN 这一基于时间序列生成对抗网络（TimeGAN）的新型人工智能方法，旨在通过校正物理模型（如 ADCIRC）的系统性偏差，在减少计算网格分辨率和运行时间的同时，实现超越现有水位监测站范围的飓风风暴潮高精度预测。

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG