TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
本文提出了 TAO-Attack,一种通过两阶段损失函数抑制拒绝响应并惩罚伪有害输出、结合方向优先令牌优化策略以提升效率的新型优化型越狱攻击方法,在多种大语言模型上实现了超越现有最先进方法的攻击成功率。
1583 篇论文
本文提出了 TAO-Attack,一种通过两阶段损失函数抑制拒绝响应并惩罚伪有害输出、结合方向优先令牌优化策略以提升效率的新型优化型越狱攻击方法,在多种大语言模型上实现了超越现有最先进方法的攻击成功率。
本文提出了一种基于指令微调大语言模型和紧凑提示的新方法,将论证组件检测重构为语言生成任务,从而在无需预分割的情况下直接识别论证跨度并分类,且在标准基准测试中取得了优于现有最先进系统的性能。
本文通过主成分分析研究了自监督语音模型(WavLM)特征维度中的说话人信息,发现不同主成分分别编码了音高、性别、强度、噪声及共振峰等特征,并证实通过调整这些维度即可在语音合成中有效操控输出声音的特性。
该论文通过引入切换矩阵基准测试,揭示了多轮大语言模型系统中因中途切换模型而产生的上下文不匹配会导致显著的静默性能漂移,并提出了分解模型前缀影响与后缀敏感性的方法以量化和监控此类风险。
该论文发布了首个将欧洲 ESCO 职业技能与大学课程进行人工及合成标注的数据集,并验证了基于 BERT 的模型在课程与技能匹配任务中能达到 87% 的 F1 分数,从而为相关推荐系统提供了基准。
本文介绍了由大语言模型驱动的 APRES 系统,该系统能在不改变核心科学内容的前提下,依据预测引用率的评估标准自动修订论文,显著提升了引用预测精度并获得人类专家的高度认可,旨在辅助而非替代人类审稿人。
本文提出了一种结合类型感知检索增强生成与依赖闭包机制的新方法,通过构建包含数学依赖关系的领域知识图谱,确保大语言模型能够准确生成可执行的工业优化代码,从而有效解决了传统方法因类型不一致和依赖缺失导致的模型不可编译问题。
本文提出了模态解耦直接偏好优化(MoD-DPO)框架,通过引入模态感知正则化和语言先验去偏惩罚,有效缓解了全模态大语言模型中的跨模态幻觉问题,显著提升了其在音视频理解任务中的感知准确性与抗幻觉能力。
本文提出了名为 BeyondSWE 的综合基准测试,揭示了当前代码代理在跨仓库推理、领域问题解决等真实场景中存在显著的能力短板,并进一步通过 SearchSWE 框架验证了单纯引入搜索增强并不能稳定提升代理性能,从而强调了开发类人“搜索 - 推理”工作流的挑战性。
本文提出了 ACE-Brain-0,一种以空间智能为通用支架、采用“构建 - 专精 - 融合”(SSR)范式统一多模态大语言模型的多领域具身通用大脑,在 24 项基准测试中实现了跨异构载体的卓越泛化与领域专长平衡。
本文提出了名为 MOSAIC 的后训练框架,通过引入显式的安全推理与拒绝机制,并利用基于偏好的强化学习进行优化,有效解决了代理语言模型在多步工具使用场景下的安全风险,在显著降低有害行为、提升对注入攻击的拒绝率及防止隐私泄露的同时,保持了良性任务的性能。
本文研究了大语言模型对比引导技术对训练数据污染的鲁棒性,发现虽然该方法对中等程度的噪声具有抵抗力,但恶意篡改会引发显著副作用,而通过引入鲁棒均值估计器替代传统的高维均值计算,可有效缓解此类恶意攻击带来的负面影响。
该论文提出了一种名为密度引导响应优化(DGRO)的方法,通过利用社区中内容被接受和互动的隐式行为所形成的表示空间几何结构(即高密度区域),在无需显式偏好标注的情况下,使语言模型能够适应不同在线社区的特定规范。
本研究证实,基于学习进展自动生成的评分标准所驱动的 AI 反馈,在清晰度、相关性、参与度及反思性等关键质量维度上,与专家人工设计的评分标准所生成的反馈效果相当,为科学学习中的规模化形成性反馈提供了可扩展的替代方案。
本文探讨了大型语言模型在生成虚假内容(即“幻觉”)及被恶意利用方面的风险,并提出了针对事实核查者、新闻机构及政策社区在技术创新、监管改革和 AI 素养提升等方面的应对策略,以应对生成式 AI 时代的信息真实性挑战。
本文评估了 ChatGPT(特别是其数据分析插件)作为数据科学工作流中的量化副驾驶在数据探索、可视化及监督与无监督建模任务中的潜力与局限性,并指出其自动化前景。
本文综述了将大语言模型(LLM)作为智能体应用于金融交易的研究现状,系统总结了其常见架构、数据输入、回测表现及面临的挑战,并展望了该领域的未来发展方向。
本文提出了 SynthKG 合成数据管道与 Distill-SynthKG 蒸馏框架,通过利用大语言模型生成高质量文档 - 知识图谱对来微调小模型,从而以低成本实现了超越更大基线模型的知识图谱构建质量,并显著提升了检索增强生成(RAG)任务中的检索与问答性能。
本文提出了一种基于正交基(包括埃尔米特多项式、傅里叶三角函数及热带化多项式)的激活函数族,通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题,实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练,并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。
该论文提出了 AStar,一种无需训练的多模odal 推理框架,它通过自适应检索并融合轻量级的“思维卡片”来引导模型进行结构化思考,从而在不依赖昂贵搜索或复杂后训练的情况下,显著提升了多模态大模型在复杂视觉推理任务中的性能。