Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
本文表明,外部信息流的策划与排序可以系统性地引导大语言模型智能体做出对抗性决策,尤其是在其处于不确定状态时,这揭示了安全评估必须审计上游的推荐层,而非仅仅孤立地测试模型本身。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
568 篇论文已由作者审阅 · 111–120 / 568
本文表明,外部信息流的策划与排序可以系统性地引导大语言模型智能体做出对抗性决策,尤其是在其处于不确定状态时,这揭示了安全评估必须审计上游的推荐层,而非仅仅孤立地测试模型本身。
本文证明了在对协议导数存在物理约束的弱驱动系统中,最小化不可逆功的最优解为恒定驱动速度和线性协议,这一结果通过一个移位特征值方程推导得出,并经由数值遗传规划进行了验证。
本文引入了一种统一的物理信息深度学习框架,该框架通过强制执行微分方程残差和信息论边界,来准确预测热力学与金融系统中的熵,实现了零第二定律违背、卓越的数据效率,并具备通过几何分析识别相不稳定性(phase instabilities)的能力。
本文表明,低资源场景下的安全性失效源于决策校准的失调而非缺乏有害性表示,并提出了一种通过仅使用少量目标语言示例来重新校准现有高资源安全性闸门的方法来修复这一问题。
本文首次通过利用提霍诺夫正则化、收缩性质和 R-连续性理论,确立了在非可和误差条件下,用于求解希尔伯特空间中单调包含问题的实用不精确近端点算法与 Tseng 算法的收敛性。
本文介绍了 ChartArena,这是一个全面的双语基准测试,涵盖了数字、印刷和手绘场景下的八类图表家族,并采用了一种与格式无关的评估协议,旨在系统地评估并揭示 26 个领先的多模态大语言模型在解析各类图表时的当前能力与局限性。
本文介绍了公平微调(Fair Fine-tuning, FFt),这是一种通过在等同几率(Equalized Odds)约束下对补充数据进行模型微调,从而缓解分布推理攻击的方法,该方法在理论上证明了对抗优势受限于公平性差异,并在多种数据集上实证展示了攻击成功率的显著降低。
JenBridge 是一个新颖的模块化框架,它利用基于 Transformer 的生成模型和由大语言模型驱动的导演智能体,来制作具有高保真度、且在场景切换间具有自然叙事连贯性的长篇视频原声,并由新提出的 LVS 基准进行验证。
本文将“边缘路径坍缩”(Marginal Path Collapse)识别为扩散模型推理时引导过程中由于噪声调度不匹配或负指数导致的临界失效模式,并提出了具有指数自适应路径修正(Adaptive Path Correction with Exponents, ACE)的框架,旨在从数学上保证路径的存在性,并在药物设计和图像生成等复杂组合任务中显著提升性能。
本文证明了非线性系统向量场的定量开放性剖面对稳定反馈的增长率施加了特定的必要下界,从而揭示了布罗凯特(Brockett)拓扑条件本质上是由定量增益需求所支配,而非仅仅是一个二元障碍。