Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

本文提出了一种名为“链式诱饵(Chain-of-Lure)”的新型通用越狱攻击框架,该方法利用大语言模型自身不受约束的欺骗能力,通过任务转移将恶意意图隐藏于对话中,并借助辅助模型生成无模板的渐进式诱饵问题,从而在无需预设模板的情况下成功突破多种大语言模型的安全限制。

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

本文提出了名为 RedTeamCUA 的对抗性测试框架及包含 864 个样本的 RTC-Bench 基准,通过创新的混合沙箱环境评估了计算机使用代理(CUA)在真实 Web-OS 场景下对间接提示注入的脆弱性,发现当前最先进的模型(如 Claude 4.5 Sonnet)仍存在高达 60% 的攻击成功率,凸显了部署前加强防御的紧迫性。

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类,通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限,并探索了 PointGraph 和 SpatialCoT 两种增强策略。

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL