Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

本文提出了一种名为“链式诱饵(Chain-of-Lure)”的新型通用越狱攻击框架,该方法利用大语言模型自身不受约束的欺骗能力,通过任务转移将恶意意图隐藏于对话中,并借助辅助模型生成无模板的渐进式诱饵问题,从而在无需预设模板的情况下成功突破多种大语言模型的安全限制。

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL