cs.LG 篇论文 | Gist.Science

Quantum Diffusion Models: Score Reversal Is Not Free in Gaussian Dynamics

该论文指出，在连续变量高斯马尔可夫动力学中，量子扩散模型的分数逆转并非免费，因为对于特定参数下的量子极限衰减器，固定扩散的 Wigner 分数逆向漂移会破坏完全正性，而任何高斯完全正性修复都必须注入额外的扩散，从而导致保真度损失存在由几何参数决定的下界。

Ammar Fayad2026-03-09⚛️ quant-ph

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

本文提出了专为从头预训练设计的 NOBLE 架构，通过在 Transformer 线性层中引入带有可学习非线性（如 CosNet）的低秩分支，在仅增加少量参数和时间开销的情况下显著提升了 LLM、BERT 及 ViT 等模型的训练效率。

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer 是一种无需重新训练的大语言模型控制框架，它通过推理时近似小样本上下文学习的梯度更新动态，仅用极少量示例即可高效实现高达 95% 的定向控制效果，从而解决了现有激活导向方法在样本效率与信号提取能力之间的权衡难题。

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Semantics-Aware Caching for Concept Learning

该论文提出了一种语义感知缓存方法，通过建立概念与实例集合之间的子sumption感知映射，显著降低了概念学习过程中因大量实例检索导致的运行时开销，在多种推理器和分页策略下均能将运行时间减少一个数量级。

Louis Mozart Kamdem Teyou, Caglar Demir, Axel-Cyrille Ngonga Ngomo2026-03-09🤖 cs.LG

When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

该论文挑战了多模态扩散模型中多模态攻击具有协同效应的直觉，揭示了“后门模态坍缩”现象，即攻击往往退化为仅依赖单一模态主导，并提出了新指标对此进行了量化验证。

Qitong Wang, Haoran Dai, Haotian Zhang, Christopher Rasmussen, Binghui Wang2026-03-09🤖 cs.LG

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

该研究提出了一种基于超过 4.5 万张超声图像训练的人工智能系统，其诊断胎儿口面裂的准确率媲美资深放射科医生，不仅能显著提升初级医生的诊断敏感性，还能加速罕见病临床专家的培养，为医疗资源匮乏地区提供了兼顾精准诊断与专业教育的可扩展解决方案。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

Predicting Atomistic Transitions with Transformers

该论文展示了如何利用 Transformer 模型作为快速代理，以极低的计算成本预测纳米团簇中的原子跃迁路径，并验证了预测的物理有效性及生成多种微观状态的能力。

Henry Tischler, Wenting Li, Qi Tang, Danny Perez, Thomas Vogel2026-03-09🔬 cond-mat.mtrl-sci

Hierarchical Industrial Demand Forecasting with Temporal and Uncertainty Explanations

本文提出了一种针对大规模分层工业需求预测的新型可解释性方法，通过解析时间序列重要性、预测不确定性及数据变动影响，显著提升了模型在真实供应链场景中的透明度与决策支持能力。

Harshavardhan Kamarthi, Shangqing Xu, Xinjie Tong, Xingyu Zhou, James Peters, Joseph Czyzyk, B. Aditya Prakash2026-03-09🤖 cs.LG

Causal Interpretation of Neural Network Computations with Contribution Decomposition

本文提出了名为 CODEC 的贡献分解方法，利用稀疏自编码器将神经网络行为分解为稀疏的神经元贡献模式，从而揭示驱动网络输出的因果过程，并实现了对人工神经网络及生物视网膜模型中间层更有效的因果操控与可解释性分析。

Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus2026-03-09🤖 cs.LG

Boosting deep Reinforcement Learning using pretraining with Logical Options

该论文提出了一种名为 H²RL 的混合分层强化学习框架，通过引入基于逻辑选项的预训练策略，将符号结构注入神经智能体以引导其进行目标导向的长期决策，从而有效解决了深度强化学习中常见的奖励过拟合问题，并在长程任务中超越了现有基线模型。

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

A recipe for scalable attention-based MLIPs: unlocking long-range accuracy with all-to-all node attention

本文提出了名为 AllScAIP 的可扩展注意力机制机器学习势函数，通过引入全连接节点注意力组件以数据驱动方式有效捕捉长程相互作用，在无需显式物理项的情况下实现了分子、材料及催化体系的高精度预测与稳定长时程分子动力学模拟。

Eric Qu, Brandon M. Wood, Aditi S. Krishnapriyan, Zachary W. Ulissi2026-03-09🔬 cond-mat.mtrl-sci

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

本文提出了 SCOPE 框架，通过利用基类训练场景中的未标注背景区域构建伪实例原型池，并将其与少样本原型融合以增强表示，从而在无需重训练或增加参数的情况下，有效解决了 3D 点云增量少样本分割中的灾难性遗忘和判别性不足问题，在 ScanNet 和 S3DIS 数据集上取得了最先进性能。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

BEVLM 提出了一种将鸟瞰图（BEV）表示与大型语言模型（LLM）相结合的新框架，通过从 LLM 蒸馏语义知识并统一多视角输入，显著提升了自动驾驶在复杂场景下的空间推理能力、跨视图理解精度及端到端闭环驾驶的安全性。

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Linear Multidimensional Regression with Interactive Fixed-Effects

本文提出了一种针对具有未观测交互固定效应的多维面板数据的线性回归估计方法，该方法通过结合 Bai (2009) 因子模型与加权组内变换，实现了参数级收敛速率并证明了渐近正态性，且已应用于啤酒需求弹性的实证估计。

Hugo Freeman2026-03-06💻 cs

Zeroth-Order primal-dual Alternating Projection Gradient Algorithms for Nonconvex Minimax Problems with Coupled linear Constraints

本文针对具有耦合线性约束的非凸极小极大问题，提出了两种单循环零阶算法（ZO-PDAPG 和 ZO-RMPDPG），并在确定性和随机设定下分别证明了其达到 $\varepsilon$ -平稳点的迭代复杂度，填补了该领域零阶算法理论分析的空白，其中 ZO-RMPDPG 在无约束随机设定下还刷新了现有零阶算法的最优复杂度记录。

Huiling Zhang, Zi Xu, Yuhong Dai2026-03-06🔢 math

Data Collaboration Analysis with Orthonormal Basis Selection and Alignment

本文提出了正交数据协作（ODC）方法，通过强制秘密基与目标基的正交性将数据协作中的基对齐问题转化为具有闭式解的正交 Procrustes 问题，从而在保持隐私和单轮通信的前提下，显著降低了计算复杂度并提升了数值稳定性与模型精度。

Keiyu Nosaka, Yamato Suetake, Yuichi Takano + 1 more2026-03-06🔢 math

Localized Distributional Robustness in Submodular Multi-Task Subset Selection

本文提出了一种基于局部分布鲁棒性的多任务子模优化新方法，通过引入相对熵正则化项将问题转化为可高效求解的单调函数与子模函数复合形式，从而在卫星星座传感器选择和图像摘要等任务中实现了性能与鲁棒性的有效平衡。

Ege C. Kaya, Abolfazl Hashemi2026-03-06🔢 math

Distilling Privileged Information for Dubins Traveling Salesman Problems with Neighborhoods

该论文提出了一种结合模型无关强化学习与监督学习的两阶段新方法，通过利用特权信息蒸馏 LKH 启发式算法生成的专家轨迹知识，实现了比 LKH 快约 50 倍且能完整覆盖所有任务点的非完整约束车辆邻域旅行商问题（DTSPN）快速求解。

Min Kyu Shin, Su-Jeong Park, Seung-Keol Ryu + 2 more2026-03-06💻 cs

HEroBM: a deep equivariant graph neural network for universal backmapping from coarse-grained to all-atom representations

本文提出了 HEroBM，一种基于深度等变图神经网络的通用方法，能够高效、准确地将任意粗粒度分子构象回映射为全原子结构，并成功应用于复杂的生物体系。

Daniele Angioletti, Stefano Raniolo, Vittorio Limongelli2026-03-06🔬 physics

Learning to Cover: Online Learning and Optimization with Irreversible Decisions

本文研究了具有离散不可逆决策的在线学习与优化问题，通过证明分类器收敛性并推导渐近最优算法，揭示了在有限时间范围内通过“先探索后利用”策略实现设施覆盖目标时，其遗憾值随目标规模呈次线性增长且收敛速度极快的理论特性。

Alexandre Jacquillat, Michael Lingzhi Li2026-03-06🔢 math