cs.LG 篇论文 | Gist.Science

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

该论文通过注意力头层面的机制可解释性分析，揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争，并阐明了不同架构中安全关键注意力头的功能差异，为理解及提升大语言模型安全性提供了新的理论视角。

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Fibration Policy Optimization

本文提出了“纤维化策略优化”（FiberPO）框架，通过推导聚合策略截断目标（APC-Obj）和构建纤维束门控（FBG）代数结构，首次将信任区域理论与可组合的代数层级相结合，实现了从词元到轨迹乃至多领域层级的统一多尺度稳定性控制。

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

Optimising antibiotic switching via forecasting of patient physiology

该论文提出了一种基于神经过程的预测系统，通过模拟患者生命体征轨迹并对照临床指南而非历史决策来判断口服抗生素转换时机，从而在 MIMIC-IV 和 UCLH 数据集上显著提升了抗生素管理决策支持的效率与准确性。

Magnus Ross, Nel Swanepoel, Akish Luintel, Emma McGuire, Ingemar J. Cox, Steve Harris, Vasileios Lampos2026-03-10🤖 cs.LG

FedPrism: Adaptive Personalized Federated Learning under Non-IID Data

FedPrism 提出了一种自适应个性化联邦学习框架，通过棱镜分解法将模型解耦为全局基础、共享群组及私有部分，并结合基于置信度的双流路由机制，有效解决了非独立同分布数据下的统计异质性问题，在保持泛化能力的同时显著提升了个性化性能。

Prakash Kumbhakar, Shrey Srivastava, Haroon R Lone2026-03-10🤖 cs.LG

FlowTouch: View-Invariant Visuo-Tactile Prediction

本文提出了 FlowTouch，一种利用物体局部 3D 网格编码信息并结合流匹配生成模型的新方法，旨在实现与视角无关的视触觉预测，从而有效弥合仿真与现实的差距并提升下游抓取稳定性预测能力。

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Beyond ReinMax: Low-Variance Gradient Estimators for Discrete Latent Variables

本文针对 ReinMax 估计器方差过高的问题，提出了结合 Rao-Blackwell 化与控制变量技术的 ReinMax-Rao 和 ReinMax-CV 估计器，在降低方差的同时提升了离散潜变量变分自编码器的训练性能，并从数值积分角度重新审视了 ReinMax 的构建原理。

Daniel Wang, Thang D. Bui2026-03-10🤖 cs.LG

Airborne Magnetic Anomaly Navigation with Neural-Network-Augmented Online Calibration

本文提出了一种具备“冷启动”能力的自适应机载磁异常导航架构，通过扩展卡尔曼滤波将物理模型与神经网络残差学习相结合，实现了无需离线校准或专用机动即可在飞行中实时补偿飞机磁干扰并达到与离线训练模型相当的导航精度。

Antonia Hager, Sven Nebendahl, Alexej Klushyn, Jasper Krauser, Torleiv H. Bryne, Tor Arne Johansen2026-03-10🤖 cs.LG

Towards a more efficient bias detection in financial language models

该论文针对金融语言模型中偏见检测计算成本高昂的问题，通过大规模实证研究揭示了不同模型间偏见揭示输入的一致性模式，并提出了一种利用跨模型引导显著降低检测成本的新方法。

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

本文提出了 SCL-GNN 框架，通过利用希尔伯特 - 施密特独立性准则（HSIC）量化并抑制节点特征与标签间的虚假相关性，结合双层优化策略，显著提升了图神经网络在分布内及分布外场景下的泛化能力。

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

本文提出了一种名为 TA-RNN-Medical-Hybrid 的时间感知与可解释混合深度学习框架，通过整合显式连续时间编码、SNOMED 疾病表示及分层注意力机制，在 MIMIC-III 数据集上实现了对 ICU 患者死亡风险的高精度预测与符合医学知识的有效解释。

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

PolyFormer: learning efficient reformulations for scalable optimization under complex physical constraints

本文提出了 PolyFormer，一种将物理与几何知识融入优化问题重构的机器学习方法，通过将其转化为高效的多面体形式，在保持解质量的同时实现了高达 6400 倍的计算加速和 99.87% 的内存缩减，从而显著提升了复杂物理约束下大规模优化问题的可扩展性。

Yilin Wen, Yi Guo, Bo Zhao, Wei Qi, Zechun Hu, Colin Jones, Jian Sun2026-03-10🤖 cs.LG

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

该论文通过递归应用 Borell-Tsirelson-Ibragimov-Sudakov 不等式证明高斯过程后验采样强化学习（GP-PSRL）算法在连续控制中的访问状态有界，并利用链式方法推导出了针对无界状态空间的紧贝叶斯后悔界 $\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T})$ ，从而解决了现有理论在最大信息增益依赖性和状态空间无界性方面的局限。

Hamish Flynn, Joe Watson, Ingmar Posner, Jan Peters2026-03-10🤖 cs.LG

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

该论文揭示了在深度线性对角网络中，Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差，特别是 $\ell_2$ -SAM 会表现出“顺序特征放大”现象，即模型在训练初期依赖次要特征并逐渐转向主要特征，从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

该论文提出了一种基于图指令神经网络（GINN）的新方法，旨在克服传统降阶技术在处理具有变化边界条件的参数化偏微分方程时的局限性，从而实现复杂物理现象的高效、实时模拟。

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

该论文提出了一种概念引导的微调框架，通过利用大语言模型和视觉语言模型自动生成空间定位的概念掩码，引导视觉 Transformer 关注语义特征并抑制虚假背景相关性，从而在无需人工标注的情况下显著提升了模型在分布外场景下的鲁棒性。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Sign Identifiability of Causal Effects in Stationary Stochastic Dynamical Systems

该论文在已知因果结构但扩散矩阵未知的连续时间线性平稳随机微分方程框架下，通过引入边符号可识别性概念，在忠实性假设下建立了判断一般图结构边符号可识别性、不可识别性及部分可识别性的准则，并针对经典与新型循环因果结构进行了具体验证。

Gijs van Seeventer, Saber Salehkaleybar2026-03-10🤖 cs.LG

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

该论文提出了一种无需额外标签的通用框架来评估多重实例学习（MIL）热图的质量，并通过大规模基准测试发现扰动法、层相关传播（LRP）和积分梯度（IG）等方法优于传统的注意力热图，从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

cs.LG