AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
该论文提出了名为 AttriGuard 的运行时防御机制,通过基于平行反事实测试的因果归因方法,在保持任务效用几乎无损的前提下,有效抵御了大语言模型代理面临的间接提示注入攻击。
315 篇论文
该论文提出了名为 AttriGuard 的运行时防御机制,通过基于平行反事实测试的因果归因方法,在保持任务效用几乎无损的前提下,有效抵御了大语言模型代理面临的间接提示注入攻击。
该论文提出了一种利用物理不可克隆函数(PUF)将神经网络模型权重与特定硬件唯一属性绑定的方法,从而确保模型仅在原始硬件上能保持高精度运行,有效防止了知识产权在克隆硬件上的非法复制。
该研究针对物联网网络中不断演变的威胁和概念漂移问题,提出了一种基于 LSTM 的增量联邦学习框架,利用 CICIoMT2024 数据集评估了多种策略在隐私保护、资源受限条件下维持非静态入侵检测系统长期性能与低延迟的平衡。
该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。
该论文通过识别并验证视觉 Transformer 中触发器的线性方向,揭示了不同后门攻击的内部处理机制差异,并据此提出了一种无需数据的权重检测方案,证明了机械可解释性在诊断和解决计算机视觉安全漏洞方面的有效性。
本文提出了一种名为 MAD(内存分配多样性)的新方法,通过结合内存分配与软件多样性原则,利用两种新颖的空间多样化技术克服内存子系统熵不足的障碍,以硬件和软件无关的方式有效延缓 DRAM 错误(如 RowHammer 攻击),从而为系统响应争取宝贵时间。
本文介绍了 TOSSS(基于 CVE 的双选项安全片段选择)基准,旨在通过让大语言模型在安全与易受攻击的代码片段间进行选择来评估其软件安全能力,该基准具有可扩展性,并在 14 个主流模型上进行了 C/C++ 和 Java 代码的测试。
本文通过实验室架构对 TLS 1.3 协议中传统、混合及纯后量子密钥交换算法在 TCP 握手、TLS 握手及 HTTP 应用层等多个层面的性能影响进行了实证研究与统计分析。
该论文通过构造一个基于相关向量查询的问题,首次明确证明了在持续观察模型下,针对固定数据流的非自适应差分隐私算法与针对自适应数据流的差分隐私算法之间存在显著差异:前者能在指数级时间步内保持准确,而后者在常数步后便会失效。
本文研究了在 NISQ 时代下,针对电路切割或量子态隐形传态等分布式执行方式的对抗性扰动,揭示了此类扰动与在量子分类器中间层实施对抗门之间的内在联系,并从理论和实验角度分析了分区量子分类器的对抗鲁棒性。
该论文提出了名为 HVAC-EAR 的新方法,利用广泛部署的 HVAC 系统压力传感器,通过复数统一注意力模块和相位重建技术,成功从低采样率噪声数据中恢复出 1.2 米范围内的可懂语音,揭示了由此引发的新型隐私风险。
本文提出了名为 SPARK 的框架,通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器,构建看似无害的提示词以协同诱导文本生成视频(T2V)模型绕过安全防御,从而生成语义违规的视频内容。
该论文首次系统研究了由大语言模型驱动的单智能体多工具架构中存在的“工具编排隐私风险”(TOP-R),通过构建基准测试揭示其普遍性并分析成因,进而提出了针对输出、推理和审查阶段的有效缓解策略。
该论文提出了一种名为 WBC 的基于滑动窗口的成员推断攻击方法,通过聚合不同尺度局部上下文中的损失比较信号,显著提升了在微调大语言模型中识别训练数据的能力,并揭示了局部证据聚合比全局平均更有效的隐私漏洞。
该论文针对多轮对话中提示注入攻击难以在代理层进行有效聚合检测的问题,提出了一种结合单轮峰值风险、持久性比率与类别多样性的“峰值 + 累积”评分公式,在无需调用大语言模型的情况下,于大规模数据集上实现了高召回率与低误报率的攻击检测效果。
本文介绍了 Scrambler,这是一种基于 e-graph 和等式扩展技术的混合布尔算术混淆工具,能够高效生成等价性由构造保证的复杂且多样的表达式,并在表达力和复杂度上优于现有工具。
该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。
该论文针对顺序多智能体大语言模型系统中局部隐私约束无法防止级联泄露的问题,通过形式化互信息泄露并推导理论界,提出了一种隐私正则化训练框架,证明了必须将隐私视为系统级属性以在训练和部署阶段实现有效的隐私 - 效用权衡。
该论文提出了一种名为“生态系统信任档案”的方法,使数字生态系统能够自主定义和发布其信任的凭证,并通过分析信任档案的共性来严格定义跨生态系统互操作性,从而在保留各生态系统主权的同时解决跨域信任难题。
本文提出了一种名为 PPCMI-SF 的隐私保护协作医疗图像分割框架,该框架通过结合跳连自编码器与客户端特定的密钥潜在变换,在无需共享原始数据的前提下,实现了多机构间的高精度、抗攻击且低通信开销的实时分割任务。