Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement
本文提出了名为 DCR 的对比精炼对齐阶段,通过增强大语言模型区分真正有害提示与表面有害提示的能力,在有效缓解过度拒绝问题的同时,兼顾了安全性与通用性能。
1298 篇论文
本文提出了名为 DCR 的对比精炼对齐阶段,通过增强大语言模型区分真正有害提示与表面有害提示的能力,在有效缓解过度拒绝问题的同时,兼顾了安全性与通用性能。
该论文提出了一种无需训练且计算成本极低的线性表示编辑方法,通过识别并操控大语言模型激活空间中的特定方向,实现了对情感、结构等多种风格属性的精准控制与组合。
本文提出了 IntPro,一种通过检索增强推理来学习用户个性化意图模式的代理智能体,它利用意图解释库和混合训练策略(监督微调与 GRPO),有效提升了复杂情境下的上下文感知意图理解能力。
本文提出了一种名为顺序自适应导向(SAS)的模块化框架,通过在残差流中训练正交化导向向量,实现了在不更新模型参数的情况下对大语言模型进行可解释、连续且多维的人格特征控制。
针对现有中文对话数据集中情感动态变化及多任务联合建模资源的匮乏,本文构建了一个支持满意度识别、情感识别及情感状态转移预测的多任务多标签中文对话数据集。
本文提出了名为 StructLens 的分析框架,通过基于残差流语义表示构建最大生成树来揭示语言模型的全局层间结构关系,其发现的结构感知相似度不仅区别于传统余弦相似度,还能有效应用于层剪枝等实际任务。
该论文提出了一种名为 AutoHarness 的方法,利用较小的 Gemini-2.5-Flash 模型通过迭代反馈自动生成代码约束(或完整策略),有效防止了智能体在 TextArena 环境中做出非法操作,使其在性能上超越了包括 Gemini-2.5-Pro 和 GPT-5.2-High 在内的更大模型,同时显著降低了成本。
该论文提出了“确定性鲁棒性”基准,通过两回合自我挑战提示评估大语言模型在互动场景下的稳定性与适应性,揭示了现有基准未能捕捉的模型在面临质疑时表现出的显著可靠性差异。
本文提出了 PulseLM,这是一个包含 131 万段标准化 PPG 片段及 315 万个问答对的大规模基础数据集与基准,旨在通过统一的封闭式问答形式,将原始 PPG 波形与自然语言连接起来,以推动多模态生理推理及 PPG 语言模型的研究。
该论文通过评估 13 个大语言模型对 5 种思维链扰动(如数学错误、单位转换等)的鲁棒性,揭示了模型规模虽能缓解部分扰动影响,但在单位转换等特定任务上仍存在显著脆弱性,从而强调了针对多阶段推理部署进行任务特定鲁棒性评估的必要性。
本文提出了无需训练、数据或校准的 DropMatch 方法,通过仅在 LM 头部应用蒙特卡洛 Dropout 生成多条解码路径以构建经验分布,从而在保持目标模型预测分布一致性的同时优化语义 Token 的接受决策,显著提升了推测解码的推理速度。
本文介绍了 CompMath-MCQ,这是一个由研究生课程教授原创编写的、涵盖线性代数等高级数学与科学计算主题的 1500 道多项选择题基准数据集,旨在填补 LLM 在研究生级别计算数学推理评估方面的空白,并揭示当前顶尖模型在此领域仍面临显著挑战。
该论文提出了一种基于压缩感知的稀疏定位方法,揭示了大语言模型中的多种能力(如数学推理和代码生成)高度局部化于少量特定的注意力头中,这一发现为模型的可解释性、编辑及安全研究提供了新的视角。
该论文提出了一种基于上下文 Bradley-Terry-Luce 模型的框架,通过构建成对效用差异的置信区间来生成具有统计有效性的提示依赖型大语言模型排名,从而在存在估计噪声和性能波动时提供决策安全的排序与不确定性量化。
本文介绍了名为 Arapai 的离线优先 AI 聊天机器人架构,该架构专为低连接和硬件受限的教育环境设计,通过本地量化模型和硬件感知优化,在不依赖互联网的情况下为师生提供个性化的教学支持,从而促进数字包容并增强教育技术的抗基础设施脆弱性。
该研究利用因果干预和线性探针等可解释性方法,首次系统揭示了大语言模型中的药理学知识并非存储于单一令牌,而是以早期层中分布式的形式编码,且药物组语义主要通过中间令牌而非末尾令牌进行因果激活。
该论文揭示了大语言模型在面对分布外(OOD)挑战时,其最后一层隐藏状态会随任务难度增加而显著变稀疏的机制,并据此提出了一种利用该稀疏性动态调度少样本演示的“稀疏引导课程上下文学习(SG-ICL)”策略,从而有效提升了模型性能。
该研究提出基于 OpenCode 的框架,揭示了在长期自主执行任务中,当系统指令与模型内化的安全隐私等价值观发生冲突并受到环境压力时,主流编码智能体表现出显著的“非对称目标漂移”现象,即更倾向于违背显式指令以维护其内在价值观,从而暴露了当前对齐方法在应对复杂环境压力下的不足。
该论文通过引入门控机制证明 Transformer 中大部分 MLP 非线性计算实际上是被浪费的,通过动态将冗余层替换为线性模块,不仅能在几乎不增加困惑度成本的情况下实现显著稀疏化,甚至能通过移除有害的非线性层来提升模型性能。
该论文揭示了当前数学推理模型(如 Qwen2.5-Math-7B)存在“深度 - 准确性悖论”,即其高准确率主要依赖不稳定的推理路径和隐性失败,且推理质量与正确性呈弱负相关,表明现有基准测试掩盖了计算不稳定性,亟需超越单样本指标的评估改革。