cs.LG 篇论文 | Gist.Science

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

本文提出了 NMIRacle，这是一种结合红外和核磁共振光谱数据的双阶段生成式框架，通过从片段表征学习结构重建并利用光谱嵌入微调生成器，实现了比现有基线更准确且稳健的分子结构解析。

Federico Ottomano, Yingzhen Li, Alex M. Ganose2026-03-12🔬 physics

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

该论文提出了一种统一的理论框架，通过解析梯度下降中的鞍点间（saddle-to-saddle）动力学机制，解释了全连接、卷积及注意力等通用神经网络架构为何会表现出从简单（如低秩、稀疏或头数较少）到复杂解的渐进式学习偏好（即简单性偏差）。

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

该论文针对低照度动漫风景图像增强任务，通过构建新数据集并提出受相对论 GAN 启发的数据相对论不确定性（DRU）框架，利用光波粒二象性类比量化光照不确定性以动态调整目标函数，从而显著提升了生成模型的感知与美学质量。

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

该论文通过构建已知真实后验的“贝叶斯风洞”环境，证实了小型 Transformer 能够以极高精度实现贝叶斯推理，并揭示其通过残差流作为信念基底、前馈网络执行更新以及注意力机制进行内容寻址的几何机制，从而在架构层面解释了 Transformer 优于 MLP 的推理能力。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

该论文通过一阶分析揭示了交叉熵训练如何通过注意力分数的优势路由和值向量的责任加权更新，驱动注意力与内容协同专业化，从而在优化过程中塑造出支持贝叶斯推理的低维流形几何结构。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

该研究发现，尽管现代大型语言模型并未将贝叶斯推理的几何结构作为单一计算瓶颈，但它们确实保留了合成环境中观察到的低维流形结构，并利用该结构将近似贝叶斯更新与预测熵紧密对齐。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

该研究提出了一种名为 PanSubNet 的可解释深度学习框架，能够直接从常规 H&E 染色病理切片中准确预测胰腺导管腺癌的临床相关分子亚型，从而克服了传统基因检测成本高、耗时长等局限，为精准医疗提供了快速且可部署的解决方案。

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

该论文系统评估了搜索增强大语言模型中普遍存在的“过度搜索”现象，揭示了其在不同场景下的负面影响，提出了衡量性能与成本权衡的新指标 Tokens Per Correctness (TPC)，并发布了 OverSearchQA 数据集以推动高效搜索增强模型的研究。

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

该论文提出了一种基于线性随机插值的概率流常微分方程的采样新方法，通过利用朗之万采样器高效生成中间分布样本并构建速度场估计器，实现了对未归一化玻尔兹曼分布的有效采样，并在理论上证明了收敛性，在数值实验中展现了处理高维多模态分布及贝叶斯推断任务的高效性。

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

本文针对利用生成模型作为先验的贝叶斯逆问题，建立了最小化 Wasserstein-2 距离的生成先验误差定量界，证明了后验误差在特定假设下继承先验的 Wasserstein-1 收敛速率，并通过数值实验及椭圆偏微分方程逆问题验证了该理论分析的有效性。

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

本文提出了基于 Hahn 多项式激活函数的轻量级可解释模型 HaKAN，通过结合通道独立性、分块机制及 Hahn-KAN 模块，在长短期多变量时间序列预测任务中超越了现有的 Transformer 和 MLP 基线方法。

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

本文提出了一种名为 VR-SDA-A 的新型自适应方差缩减算法，通过结合 STORM 动量机制与同批曲率验证技术，成功突破了随机变分不等式中的随机性障碍，在无需手动调节学习率的情况下实现了与非凸最小化问题最优的 $O(\epsilon^{-3})$ oracle 复杂度。

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

该论文提出了一种基于奇异贝叶斯神经网络的参数高效方法，通过将权重矩阵参数化为低秩分解形式，在显著减少参数量的同时实现了优于传统均值场方法的校准性、分布外检测能力及泛化性能。

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

该论文通过统计物理和动力学平均场分析，揭示了高维条件下无分类器引导（CFG）导致生成多样性的丧失源于一种相变，并据此提出了一种引入负引导窗口的理论驱动调度方案，以在保持类别可分性的同时缓解方差收缩问题。

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

该论文通过建立将事实记忆形式化为成员测试问题的率失真定理，从信息论角度证明在容量受限下，即使拥有完美数据，大语言模型为了追求最优记忆效率而不得不将高置信度赋予非事实，从而揭示了幻觉是空间最优性导致的必然结果。

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

该论文提出了 GVP-WM 方法，通过利用学习到的动作条件世界模型，将违反物理约束的视频生成计划投影至动态可行的潜在轨迹流形上，从而在导航和操纵任务中生成可执行的长程规划。

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

该论文通过系统研究首次揭示，在去中心化扩散模型中，生成质量并非由去噪轨迹的数值稳定性决定，而是取决于路由机制能否将当前去噪状态精准匹配至训练分布覆盖该状态的专家，从而打破了“稳定性即高质量”的固有认知。

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

该论文提出了一种基于上下文汤普森采样的个性化练习推荐方法，利用学习者数据动态选择最能提升技能水平的题目，从而在大规模在线教育环境中实现高效的学习增益优化。

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

该论文证明了在噪声仅具有有限四阶矩而非高斯分布的假设下，非对称秩一张量模型的最大似然估计量在渐近谱分布、奇异值及模式对齐等方面仍表现出与高斯情形一致的普适性。

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

本文提出了一种基于锦标赛图的零样本排序代理框架，通过利用 $k$ 元比较隐含的成对偏好信息并计算传递闭包，在显著减少 Token 消耗的同时实现了比现有方法更优的 LLM 重排序精度与效率。

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG