cs.LG 篇论文 | Gist.Science

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

该论文指出将加密流量扁平化为字节序列会导致协议语义丢失，进而提出一种基于协议原生语义的表格化预训练范式 FlowSem-MAE，通过引入可预测性过滤、特定字段嵌入及双轴注意力机制，在仅使用一半标注数据的情况下显著优于现有最先进方法。

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

该论文提出了 OmniGuide 框架，通过将 3D 基础模型、语义推理大模型及人体姿态模型等多种引导源转化为可微的能量函数，显著提升了通用视觉 - 语言 - 动作（VLA）策略在复杂操作任务中的成功率与安全性。

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems

本文提出了 CAADRL 框架，通过显式利用取送货问题（PDP）的多尺度聚类结构，结合集群感知编码与动态双解码器机制，在保持推理高效性的同时显著提升了求解性能。

Wentao Wang, Lifeng Han, Guangyu Zou2026-03-12🤖 cs.LG

Quantization of Ricci Curvature in Information Geometry

该论文解决了作者关于二元贝叶斯网络中基于费雪信息度量的体积平均里奇标量是否普遍量子化为半整数的二十年猜想，通过通用 Beta 函数抵消机制证明了树结构和完全图情形下的成立，同时通过显式环路反例证伪了普遍性，并进一步揭示了离散比特网络与高斯网络之间曲率符号的二元对立。

Carlos C. Rodriguez2026-03-12🔢 math

Training Language Models via Neural Cellular Automata

该论文提出利用神经细胞自动机生成可控且廉价的合成非语言数据对大语言模型进行“预预训练”，结果发现仅使用 1.64 亿个合成 token 即可在语言建模和推理任务上取得优于 16 亿自然语言 token 预训练的效果，并揭示了注意力层的高可迁移性及不同领域对合成数据复杂度的差异化需求。

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

本文提出 HTMuon 算法，通过引入重尾谱校正机制解决 Muon 优化器过度抑制重尾权重谱的问题，在 LLM 预训练和图像分类任务中显著提升了性能并提供了相应的理论收敛保证。

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

Improving Search Agent with One Line of Code

该论文针对工具增强代理强化学习（TARL）中因重要性采样分布漂移导致的训练崩溃问题，提出了一种仅需一行代码修改即可实施的 SAPO 算法，通过条件性 KL 约束稳定训练，在多个基准测试中显著提升了搜索智能体的性能。

Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang2026-03-12🤖 cs.LG

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

该研究首次将稀疏自编码器应用于时间序列基础模型 Chronos-T5，通过因果特征消融实验揭示了其内部存在从低频特征到关键突变检测的层级结构，并发现模型预测性能的核心驱动力并非最终层的语义丰富表征，而是中间层中负责检测突变动态的因果特征。

Anurag Mishra2026-03-12🤖 cs.LG

Marginals Before Conditionals

该论文构建了一个最小化任务来研究神经网络的条件学习，发现模型会先学习边际分布并陷入由歧义度决定的损失平台期，随后在梯度噪声和内部路由机制的驱动下发生相变，最终习得完整的条件分布。

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

本文提出了一种参数化哈密顿量并强制满足互连矩阵斜对称性与耗散矩阵半正定性的随机端口哈密顿神经网络（SPH-NN），在理论上证明了其具备通用逼近能力与期望弱无源性，并在实验中对含噪振荡器系统实现了比传统多层感知机更优的长时程预测精度与能量守恒性能。

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

该论文通过分析 NTK 缩放下浅层全连接网络的 SGD 训练，建立了一个基于显式函数 $G$ 的定量理论，用以界定“弹射阶段”中大 NTK 平坦化尖峰出现的概率条件，从而解释了为何在实际网络宽度下仍会观察到此类尖峰现象。

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

该论文提出了一种名为"Amnesia"的轻量级激活空间对抗攻击方法，通过操纵开放权重大语言模型的内部 Transformer 状态，无需微调即可绕过现有安全机制并诱导其生成有害内容，从而凸显了当前模型安全防护的不足及加强研究的紧迫性。

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

该论文提出了一种受经典傅里叶神经算子启发的多阶段残差学习框架，通过迭代训练量子模块以修正前序阶段的残差，有效缓解了量子模型在傅里叶参数化中难以学习多频率成分（尤其是高频或非主导频率）的偏差问题，显著提升了模型在复杂频谱任务中的表现。

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

该论文提出了多级别概念拆分（MLCS）和深度层级概念嵌入模型（Deep-HiCEMs），旨在仅利用顶层监督信号自动发现多层级概念层次结构，从而在保持高准确率的同时支持多层次的概念干预并提升模型性能。

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

KernelSkill 是一个采用双层级记忆架构的多智能体框架，通过利用知识驱动且感知任务轨迹的专家优化技能替代传统大模型中的隐式启发式方法，显著提升了 GPU 内核的生成效率与可解释性，并在 KernelBench 基准测试中实现了远超现有基线的加速效果。

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

本文提出了 ES-dLLM，一种无需训练的扩散大语言模型推理加速框架，它通过利用中间表示的细微变化动态跳过早期层中的低重要性 token，在保持生成质量的同时实现了高达 16.8 倍的推理速度提升。

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

这篇论文首次提出了“权重空间学习”（WSL）的统一分类体系，将现有方法归纳为权重空间理解、表示与生成三大核心维度，并阐述了其在模型检索、持续学习、神经架构搜索等实际应用中的价值。

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

本文提出了一种名为等变异步扩散（EAD）的新型模型，通过引入自适应的动态去噪调度机制，有效结合了异步自回归与同步扩散模型的优势，从而在捕捉分子层级因果关系的同时实现了分子级生成视野，显著提升了三维分子构象生成的性能。

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

该论文针对时间序列预测中的分布漂移问题，提出了一种名为 TS_Adam 的轻量级优化器变体，通过移除二阶偏差校正来增强模型对非平稳数据的适应性，从而在无需额外超参数的情况下显著降低了预测误差。

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

该论文提出了代码空间响应 oracle（CSRO）框架，通过利用大语言模型将多智能体策略生成重构为代码生成任务，从而在保持与基线相当性能的同时，解决了传统强化学习方法中策略不可解释的问题，并实现了可解释、多样化且具备人类智能特征的策略合成。

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI