The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

该论文通过注意力头层面的机制可解释性分析,揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争,并阐明了不同架构中安全关键注意力头的功能差异,为理解及提升大语言模型安全性提供了新的理论视角。

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Airborne Magnetic Anomaly Navigation with Neural-Network-Augmented Online Calibration

本文提出了一种具备“冷启动”能力的自适应机载磁异常导航架构,通过扩展卡尔曼滤波将物理模型与神经网络残差学习相结合,实现了无需离线校准或专用机动即可在飞行中实时补偿飞机磁干扰并达到与离线训练模型相当的导航精度。

Antonia Hager, Sven Nebendahl, Alexej Klushyn, Jasper Krauser, Torleiv H. Bryne, Tor Arne Johansen2026-03-10🤖 cs.LG

PolyFormer: learning efficient reformulations for scalable optimization under complex physical constraints

本文提出了 PolyFormer,一种将物理与几何知识融入优化问题重构的机器学习方法,通过将其转化为高效的多面体形式,在保持解质量的同时实现了高达 6400 倍的计算加速和 99.87% 的内存缩减,从而显著提升了复杂物理约束下大规模优化问题的可扩展性。

Yilin Wen, Yi Guo, Bo Zhao, Wei Qi, Zechun Hu, Colin Jones, Jian Sun2026-03-10🤖 cs.LG

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

该论文通过递归应用 Borell-Tsirelson-Ibragimov-Sudakov 不等式证明高斯过程后验采样强化学习(GP-PSRL)算法在连续控制中的访问状态有界,并利用链式方法推导出了针对无界状态空间的紧贝叶斯后悔界 O~(H3/2γT/HT)\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T}),从而解决了现有理论在最大信息增益依赖性和状态空间无界性方面的局限。

Hamish Flynn, Joe Watson, Ingmar Posner, Jan Peters2026-03-10🤖 cs.LG

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

该论文揭示了在深度线性对角网络中,Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差,特别是2\ell_2-SAM 会表现出“顺序特征放大”现象,即模型在训练初期依赖次要特征并逐渐转向主要特征,从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

该论文提出了一种无需额外标签的通用框架来评估多重实例学习(MIL)热图的质量,并通过大规模基准测试发现扰动法、层相关传播(LRP)和积分梯度(IG)等方法优于传统的注意力热图,从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

该论文提出了一种结合 Koopman 算子(通过 EDMD 近似)与波变换特征及 Transformer 架构的心电图分类方法,研究发现虽然简单的特征混合未带来提升,但通过优化径向基函数字典构建的 Koopman 特征在四分类任务中表现优于波变换基线及混合系统,有效展示了将动力系统理论融入时间序列分类的潜力。

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG