Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
该论文提出了名为“先答后查”(Answer-Then-Check)的新型安全对齐方法,通过构建包含 8 万样本的 ReSA 数据集训练模型在生成最终回复前进行推理与安全评估,从而在显著提升抗越狱能力、降低过度拒绝率的同时,保持了模型在通用推理任务上的性能。
5373 篇论文
该论文提出了名为“先答后查”(Answer-Then-Check)的新型安全对齐方法,通过构建包含 8 万样本的 ReSA 数据集训练模型在生成最终回复前进行推理与安全评估,从而在显著提升抗越狱能力、降低过度拒绝率的同时,保持了模型在通用推理任务上的性能。
该论文针对现有同时性语音翻译延迟评估指标在短文本场景下因分词偏差导致结果不一致的问题,提出了首个涵盖多语言与系统的元评估,并引入了新型指标 YAAL 与 LongYAAL 及重分词工具 SoftSegmenter,显著提升了延迟评估的准确性与可靠性。
本文提出了名为 LikePhys 的免训练评估方法,通过利用去噪目标作为似然代理来区分物理有效与无效视频,构建了涵盖四大物理领域的基准测试,证明了其指标与人类偏好高度一致,并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。
Phys2Real 提出了一种结合视觉语言模型物理参数先验与基于不确定性感知的在线交互适应的“实 - 仿 - 实”强化学习框架,通过融合 3D 高斯溅射重建、VLM 推断及在线估计,显著提升了机器人在复杂物理动力学任务中的 sim-to-real 迁移成功率与效率。
本文提出了 CanvasMAR,一种通过引入作为非均匀掩码的全局模糊“画布”先验、运动感知采样课程以及组合无分类器引导,从而在极少采样步数下实现高保真视频预测的自回归模型。
该论文提出了一种“即时目标”(Just-In-Time Objectives)方法,通过被动观察用户行为实时推断并优化其特定目标,从而引导大语言模型动态生成高度个性化的专用工具与高质量交互响应,显著优于传统通用模型。
本文提出了 3DThinker 框架,通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下,能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理,从而在有限视角下显著提升了空间关系理解能力。
该研究通过引入三项子群一致性检验,证实了 ChatGPT 在基于性别和种族/民族群体的协作沟通数据编码中,其表现与人类评分者保持一致,从而验证了其在大规模协作评估中的应用潜力。
该论文提出了一种受贝叶斯实验设计启发的蒙特卡洛推理策略,通过“协作战舰”等任务显著提升了语言模型在信息寻求任务中的提问质量与决策理性,使其在成本极低的情况下甚至能超越人类和前沿模型的表现。
本文提出了 REx86,一个基于 Qwen2.5-Coder-7B 模型并通过 5981 个 x86 汇编样本进行参数高效微调的本地开源大语言模型,旨在解决逆向工程中的隐私与效率问题,实验表明其在代码理解准确性和注释质量上显著优于基线模型。
本文提出了 LA-MARRVEL 框架,这是一种基于知识且具备语言感知能力的临床级大语言模型系统,它通过构建富含表型的结构化提示,在罕见病致病基因优先排序任务中显著提升了召回率,并能生成符合 ACMG 标准的可审计临床推理。
该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象,提出了将“识别”与“实现”分离的评估框架(CRT 指标),通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响,从而推动了从简单图文匹配向深层语境理解的评估范式转变。
该论文提出了软 Q 函数重参数化策略梯度扩散微调(SQDF)方法,通过引入折扣因子、一致性模型集成及离线回放缓冲区等创新,有效解决了扩散模型微调中的奖励过优化问题,在提升目标奖励的同时保持了样本的多样性与自然性。
本文提出了 XR-DT 框架,该框架结合扩展现实(XR)数字孪生技术与基于注意力机制的轨迹预测模型,通过新型的人类感知模型预测路径积分(HA-MPPI)控制器,实现了人机共享空间中安全、高效且可解释的机器人运动规划。
该论文指出强化学习导致大语言模型推理多样性下降的根源在于其隐式优化了“零强制”反向 KL 散度,并提出了一种基于-散度族的新方法,通过显式构建目标分布并调节精度与多样性的权衡,在 Lean 定理证明基准上实现了覆盖率和精度的最优平衡。
该论文提出了一种基于点云框架的事件驱动人体姿态估计方法,通过设计事件时间切片卷积与序列模块以及边缘增强表示,有效利用事件流的时空特性,在保持计算效率的同时显著提升了在稀疏事件条件下的姿态估计精度。
该论文提出了 A-3PO 方法,通过用简单插值替代显式计算来近似异步强化学习训练中的近端策略,从而在保持性能的同时消除了额外前向传播开销,使大语言模型训练速度提升了 1.8 倍。
本文提出了一种基于个体条件期望(ICE)曲线的全局敏感性分析方法,通过计算 ICE 曲线的期望特征重要性及其标准差来有效捕捉输入变量间的交互作用,克服了传统偏依赖图(PDP)在强交互场景下因平均化效应而掩盖交互信息的局限,并通过数学证明和多个工程算例验证了该方法在揭示数据驱动模型特征重要性方面的优越性。
该论文通过深入分析双曲几何中梯度优化失败的根本原因,提出了包含特征正则化、分类价值损失及优化友好型网络层的新算法 Hyper++,从而在 ProcGen 和 Atari-5 等基准测试中实现了比现有双曲及欧几里得方法更稳定、高效且性能更优的强化学习训练。
该论文首次系统研究了由大语言模型驱动的单智能体多工具架构中存在的“工具编排隐私风险”(TOP-R),通过构建基准测试揭示其普遍性并分析成因,进而提出了针对输出、推理和审查阶段的有效缓解策略。