cs.LG 篇论文 | Gist.Science

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

该论文提出了 Grouter 框架，通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器，成功将路由优化与权重更新解耦，从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

本文针对在线杂货购物中重复购买模式与复杂商品关系的挑战，提出了一种名为 T-REX 的基于 Transformer 的架构，通过动态序列采样、自适应位置编码及类别级建模等创新，有效捕捉短期篮内依赖与长期用户偏好，从而在亚马逊在线杂货业务中显著提升了个性化品类推荐及下一篮预测的准确性。

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

本文提出了一种针对时序交易网络的防泄漏因果图特征提取协议，通过构建仅利用历史边信息的可解释结构描述符，在 Elliptic 数据集上验证了其在保持高检测性能的同时，能有效补充交易属性并增强欺诈检测流程的可解释性与风险上下文分析能力。

Hamideh Khaleghpour, Brett McKinney2026-03-10🤖 cs.LG

A new Uncertainty Principle in Machine Learning

该论文提出机器学习中的多项式搜索问题存在一种新的“不确定性原理”，即最小值越尖锐，其周围的梯度下降路径（峡谷）就越平坦，导致优化陷入局部极小，这一现象揭示了机器学习在科学应用中的本质属于物理学范畴，并扩展了传统傅里叶分析中的不确定性原理。

V. Dolotin, A. Morozov2026-03-10🤖 cs.LG

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

该研究通过系统实验表明，小语言模型在图属性推理任务中的表现高度依赖于输入表示方式（如保留邻域结构）和推理策略（如多分支推理），而不仅仅取决于模型规模。

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench，涵盖正常与异常设备状态及行为上下文，评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

该论文提出了名为 HEARTS 的统一基准，旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力，研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题，从而为开发下一代医疗推理智能体提供了标准化测试平台。

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

本文提出了 RECAP 方法，这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略，通过局部突触可塑性规则实现无需反向传播的鲁棒识别，并在未见过的图像噪声下展现出优异的泛化能力。

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患，即被剪枝的权重位置本身会泄露关键信息，使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念，并据此提出了相应的防御策略。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

SR-TTT 通过引入基于损失门控的稀疏记忆机制，将高惊异度的关键令牌动态路由至精确注意力残差缓存，从而在保持 O(1) 内存占用的同时解决了传统测试时训练（TTT）模型在精确回忆任务中的灾难性遗忘问题。

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

本文全面综述了量子深度学习（QDL），通过界定其操作定义与四大范式，系统梳理了从理论原理、软硬件实现到实际应用的现状，批判性评估了量子优势并分析了关键瓶颈，旨在为研究人员提供从近期演示迈向可扩展容错实现的验证导向路线图。

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

本文提出了一种基于自适应信任评分机制的联邦学习框架，通过利用频率响应数据的频谱特征来解读骨愈合阶段，有效解决了分布式医疗传感环境中不可靠或对抗性参与者带来的安全挑战，从而在保障模型完整性的同时提升了训练稳定性与预测性能。

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

本文提出了 HURRI-GAN 这一基于时间序列生成对抗网络（TimeGAN）的新型人工智能方法，旨在通过校正物理模型（如 ADCIRC）的系统性偏差，在减少计算网格分辨率和运行时间的同时，实现超越现有水位监测站范围的飓风风暴潮高精度预测。

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

本文提出了一种名为测地线梯度下降（GGD）的通用且无需学习率的优化算法，该算法通过在目标函数诱导的流形上利用 n 维球面近似局部邻域并沿测地线更新参数，有效解决了传统欧氏梯度下降偏离流形及黎曼梯度下降难以表征复杂流形的问题，并在多项实验中显著降低了测试误差。

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

How the Graph Construction Technique Shapes Performance in IoT Botnet Detection

该研究通过变分自编码器降维，评估了五种图构建方法对图注意力网络在 N-BaIoT 数据集上检测 IoT 僵尸网络性能的影响，发现 Gabriel 图构建法以 97.56% 的准确率取得了最佳效果。

Hassan Wasswa, Hussein Abbass, Timothy Lynar2026-03-10🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

本文提出了一种名为投影增强图（PAG）的新型近似最近邻搜索框架，通过结合投影技术与图索引，在满足现代 AI 应用六大关键需求的同时，实现了比 HNSW 快达 5 倍的查询性能、快速的索引构建速度以及良好的高维扩展性和在线插入支持。

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan Xiao2026-03-10🤖 cs.LG

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

该论文提出了 EnsAug 框架，通过为集成学习中的每个专家模型分别应用单一独特的几何变换来训练，从而在保持人体运动几何约束的同时提升模型多样性，在多个手势和动作识别基准测试中实现了优于传统混合增强方法的性能。

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

本文提出了 HyperTokens 框架，通过按需生成微调令牌、引入元启发式正则化以抑制遗忘，并结合因果视角的辅助多模态监督，在显著降低存储成本的同时实现了视频语言理解任务的高效持续学习。

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架，通过结合真实采购日志、标注欺诈数据及合成数据，利用时间感知和分组感知的嵌套交叉验证，显著提升了企业资源计划（ERP）系统中财务风险检测的准确性与可解释性，并纠正了以往研究中因数据泄露导致的性能高估问题。

Sanjay Mishra2026-03-10🤖 cs.LG

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

该论文提出了一种利用加权光谱角距离损失函数的无监督 CNN 自编码器，用于对历史油画（如根特祭坛画）横截面的 ATR-μFTIR 高光谱图像进行盲解混，从而在克服大气干扰和采集伪影的同时，实现了对复杂混合光谱中端元光谱及其丰度图的自动、客观提取。

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG