Steering Awareness: Models Can Be Trained to Detect Activation Steering
该论文通过训练模型识别激活向量注入及其具体概念,证明了激活 steering 并非不可察觉,且具备检测能力的模型反而在真实场景中更易受 steering 影响,从而揭示了当前基于 steering 的安全评估与可解释性技术存在根本性局限。
1077 篇论文
该论文通过训练模型识别激活向量注入及其具体概念,证明了激活 steering 并非不可察觉,且具备检测能力的模型反而在真实场景中更易受 steering 影响,从而揭示了当前基于 steering 的安全评估与可解释性技术存在根本性局限。
本文提出了名为 FlyThinker 的高效“边生成边思考”框架,通过并行生成潜在令牌级推理并将其动态融合至生成模型中,在保持训练与推理效率的同时,有效解决了现有个性化长文本生成中难以适应动态内容和隐式偏好对齐的难题。
本文提出了 ReFusion,一种将序列重组融入因果注意力框架的新型掩码扩散模型,通过引入槽级并行解码与自回归填充相结合的策略,在实现 KV 缓存复用和降低学习复杂度的同时,显著提升了推理速度并超越了传统自回归模型的性能。
本文提出了基于认知负荷理论的 RePo 机制,通过可微模块动态重定位上下文位置以替代固定线性索引,从而在 OLMo-2 模型上显著提升了处理噪声上下文、结构化数据及长文本任务的性能,同时保持了通用短文本任务的竞争力。
本文提出了基于真实 MCP 服务器的 MCP-SafetyBench 基准,通过涵盖五大领域和 20 种攻击类型的统一分类法,系统评估了主流大语言模型在复杂多步推理与跨服务器协作场景下的安全风险,揭示了现有模型普遍存在漏洞且面临安全与效用权衡的严峻挑战。
该论文提出并验证了一个三层评估框架,表明在文本环境中,经过充分训练的大语言模型能够作为可靠的隐式世界模型,通过维持状态一致性、可扩展性及提升智能体性能来辅助强化学习,但其有效性高度依赖于行为覆盖度与环境复杂度。
本文提出了并行令牌预测(PTP)框架,通过将随机性从后验采样转移至随机输入变量,使语言模型能够在单次前向传播中并行预测多个令牌,从而在无需教师模型的情况下实现约 2.4 倍的推理加速。
该论文通过构建成本与延迟感知的基准测试,评估了工具与规划在事件问答和说服性生成任务中对大语言模型推理能力的实际影响,发现虽然工具增强能显著提升特定任务(如事件问答)的准确率,但往往以巨大的延迟和成本为代价,且在某些场景(如 CMV)中简单的单次提示反而更具效率,因此强调需根据任务特性在模型规模与代理复杂度之间进行权衡。
本文提出了 NeuronLLM 框架,通过借鉴生物学的功能拮抗原理,利用对比学习同时识别促进和抑制任务完成的神经元,并结合增强问题集消除偶然行为,从而实现了可解释且可控的任务级大语言模型理解。
该论文提出了首个开源的、可在典型学术资源限制下高效训练的全双工指令跟随对话语音模型 F-Actor,通过仅微调语言模型并冻结音频编码器,实现了仅需 2000 小时数据即可控制说话人声音、话题、对话行为(如插话和反馈)及对话发起等自然交互特性。
该论文指出,大型语言模型能够通过识别结构模式从完全无意义的“胡言乱语”中恢复语义,这一发现有力地证明了模式匹配并非智能的替代品,而是实现真正智能的关键要素。
本文介绍了专为增强企业场景性能而设计的开源稀疏混合专家(MoE)大模型 Yuan3.0 Ultra,其通过提出面向预训练阶段的层自适应专家剪枝(LAEP)算法,在显著降低参数量并提升预训练效率的同时,实现了多领域及企业基准测试中的领先表现。
该论文通过构建基于足球集锦的新数据集,评估了基础模型识别视频关键子事件的能力,发现其表现接近随机水平且过度依赖单一模态,从而强调了采用模块化架构和互补训练方法以实现跨模态协同的必要性。
该论文提出了“自蒸馏推理器”(OPSD)框架,通过让同一模型在分别利用特权推理轨迹(教师)和仅见问题(学生)的不同条件下进行在线策略自蒸馏,在无需外部大模型教师的情况下显著提升了数学推理性能并实现了比强化学习更高的 token 效率。
本文提出了一种名为 VIP 的基于方差信息的预测性分配策略,通过利用高斯过程模型预测提示词的成功概率并求解凸优化问题,动态分配在线强化学习中的推理预算以最小化策略更新的梯度方差,从而在多个基准测试中显著提升了采样效率和模型性能。
本文提出了 LatentChem,一种将化学推理从显式文本思维链解耦至连续潜在空间的接口,通过让模型在潜在空间内自发进行隐式计算,在 ChemCoTBench 基准测试中实现了比传统 CoT 基线高出 59.88% 的非平局胜率及 10.84 倍的推理速度提升。
本文揭示了模式引导对话(SGD)与模型上下文协议(MCP)在确定性、可审计的 LLM 代理交互范式上的根本融合,通过提炼五项核心设计原则,解决了两者在失败模式与工具关系处理上的空白,并确立了模式驱动治理作为无需专有系统检查即可实现 AI 系统监管的可扩展机制。
该论文提出了一种结合动态认知情感模型与临床风险本体的自动化红队测试框架,通过大规模模拟实验揭示了当前大语言模型在心理健康支持中存在验证患者妄想及未能有效干预自杀风险等严重安全隐患,并验证了该框架在帮助多方利益相关者审计 AI 心理治疗“黑箱”方面的有效性。
本文提出了名为 JAILBREAK FOUNDRY (JBF) 的系统,通过多智能体工作流将大语言模型越狱论文自动转化为可执行模块,从而解决了因基准漂移导致的评估滞后与不可比问题,并实现了高保真度、高代码复用率的标准化安全基准测试。
本文提出了参考引导微调(ReGFT)方法,通过利用人类参考解合成符合模型推理分布的正向轨迹,有效缓解了强化学习在数学推理中面临的奖励稀疏问题,从而显著提升了模型在 AIME 等基准测试上的表现并加速了训练收敛。