LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

本文提出了名为 LLM-ProS 的新型评估方法,利用 2011 至 2024 年国际大学生程序设计竞赛(ICPC)世界总决赛的 166 道题目,对 GPT-4o、Mistral Large、Llama-3.1-405B 及 o1 系列等先进大语言模型在算法解题中的推理能力、准确性及效率进行了全面基准测试,并深入分析了训练方法、数据污染和思维链等因素对模型性能的影响。

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

本文提出了一种名为“链式诱饵(Chain-of-Lure)”的新型通用越狱攻击框架,该方法利用大语言模型自身不受约束的欺骗能力,通过任务转移将恶意意图隐藏于对话中,并借助辅助模型生成无模板的渐进式诱饵问题,从而在无需预设模板的情况下成功突破多种大语言模型的安全限制。

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL