The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
该论文通过注意力头层面的机制可解释性分析,揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争,并阐明了不同架构中安全关键注意力头的功能差异,为理解及提升大语言模型安全性提供了新的理论视角。
13021 篇论文
该论文通过注意力头层面的机制可解释性分析,揭示了续写触发型越狱攻击的本质是模型内在续写倾向与安全对齐防御之间的竞争,并阐明了不同架构中安全关键注意力头的功能差异,为理解及提升大语言模型安全性提供了新的理论视角。
本文提出了“纤维化策略优化”(FiberPO)框架,通过推导聚合策略截断目标(APC-Obj)和构建纤维束门控(FBG)代数结构,首次将信任区域理论与可组合的代数层级相结合,实现了从词元到轨迹乃至多领域层级的统一多尺度稳定性控制。
该论文提出了一种基于神经过程的预测系统,通过模拟患者生命体征轨迹并对照临床指南而非历史决策来判断口服抗生素转换时机,从而在 MIMIC-IV 和 UCLH 数据集上显著提升了抗生素管理决策支持的效率与准确性。
FedPrism 提出了一种自适应个性化联邦学习框架,通过棱镜分解法将模型解耦为全局基础、共享群组及私有部分,并结合基于置信度的双流路由机制,有效解决了非独立同分布数据下的统计异质性问题,在保持泛化能力的同时显著提升了个性化性能。
本文提出了 FlowTouch,一种利用物体局部 3D 网格编码信息并结合流匹配生成模型的新方法,旨在实现与视角无关的视触觉预测,从而有效弥合仿真与现实的差距并提升下游抓取稳定性预测能力。
本文针对 ReinMax 估计器方差过高的问题,提出了结合 Rao-Blackwell 化与控制变量技术的 ReinMax-Rao 和 ReinMax-CV 估计器,在降低方差的同时提升了离散潜变量变分自编码器的训练性能,并从数值积分角度重新审视了 ReinMax 的构建原理。
本文提出了一种具备“冷启动”能力的自适应机载磁异常导航架构,通过扩展卡尔曼滤波将物理模型与神经网络残差学习相结合,实现了无需离线校准或专用机动即可在飞行中实时补偿飞机磁干扰并达到与离线训练模型相当的导航精度。
该论文针对金融语言模型中偏见检测计算成本高昂的问题,通过大规模实证研究揭示了不同模型间偏见揭示输入的一致性模式,并提出了一种利用跨模型引导显著降低检测成本的新方法。
本文提出了 SCL-GNN 框架,通过利用希尔伯特 - 施密特独立性准则(HSIC)量化并抑制节点特征与标签间的虚假相关性,结合双层优化策略,显著提升了图神经网络在分布内及分布外场景下的泛化能力。
本文提出了一种名为 TA-RNN-Medical-Hybrid 的时间感知与可解释混合深度学习框架,通过整合显式连续时间编码、SNOMED 疾病表示及分层注意力机制,在 MIMIC-III 数据集上实现了对 ICU 患者死亡风险的高精度预测与符合医学知识的有效解释。
本文提出了 PolyFormer,一种将物理与几何知识融入优化问题重构的机器学习方法,通过将其转化为高效的多面体形式,在保持解质量的同时实现了高达 6400 倍的计算加速和 99.87% 的内存缩减,从而显著提升了复杂物理约束下大规模优化问题的可扩展性。
该论文通过递归应用 Borell-Tsirelson-Ibragimov-Sudakov 不等式证明高斯过程后验采样强化学习(GP-PSRL)算法在连续控制中的访问状态有界,并利用链式方法推导出了针对无界状态空间的紧贝叶斯后悔界 ,从而解决了现有理论在最大信息增益依赖性和状态空间无界性方面的局限。
该论文揭示了在深度线性对角网络中,Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差,特别是-SAM 会表现出“顺序特征放大”现象,即模型在训练初期依赖次要特征并逐渐转向主要特征,从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。
该论文提出了一种基于图指令神经网络(GINN)的新方法,旨在克服传统降阶技术在处理具有变化边界条件的参数化偏微分方程时的局限性,从而实现复杂物理现象的高效、实时模拟。
该论文提出了一种概念引导的微调框架,通过利用大语言模型和视觉语言模型自动生成空间定位的概念掩码,引导视觉 Transformer 关注语义特征并抑制虚假背景相关性,从而在无需人工标注的情况下显著提升了模型在分布外场景下的鲁棒性。
该论文在已知因果结构但扩散矩阵未知的连续时间线性平稳随机微分方程框架下,通过引入边符号可识别性概念,在忠实性假设下建立了判断一般图结构边符号可识别性、不可识别性及部分可识别性的准则,并针对经典与新型循环因果结构进行了具体验证。
该论文提出了一种无需额外标签的通用框架来评估多重实例学习(MIL)热图的质量,并通过大规模基准测试发现扰动法、层相关传播(LRP)和积分梯度(IG)等方法优于传统的注意力热图,从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。
该论文提出了一种结合 Koopman 算子(通过 EDMD 近似)与波变换特征及 Transformer 架构的心电图分类方法,研究发现虽然简单的特征混合未带来提升,但通过优化径向基函数字典构建的 Koopman 特征在四分类任务中表现优于波变换基线及混合系统,有效展示了将动力系统理论融入时间序列分类的潜力。
该论文提出用固定的参数化沃尔什 - 阿达玛变换替代多头注意力中的密集输出投影,在消除约 25% 注意力参数并显著降低内存与推理成本的同时,保持了模型在标准基准测试上的性能甚至略有提升。
本文提出了一种针对时间序列分类问题的新型反事实解释生成方法,通过在输入空间进行梯度优化并结合软动态时间规整(soft-DTW)与k近邻约束,有效生成了兼具有效性、稀疏性、邻近性以及符合真实时间分布结构的高可信度反事实样本。