Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
该论文首次揭示了大语言模型推理中 KV 缓存存在的严重隐私泄露风险,提出了三种攻击方法以验证其危害,并设计了名为 KV-Cloak 的高效轻量级防御机制,在几乎不影响模型精度和性能的前提下有效阻断了敏感输入的重构。
315 篇论文
该论文首次揭示了大语言模型推理中 KV 缓存存在的严重隐私泄露风险,提出了三种攻击方法以验证其危害,并设计了名为 KV-Cloak 的高效轻量级防御机制,在几乎不影响模型精度和性能的前提下有效阻断了敏感输入的重构。
本文提出了一种针对医疗数据隐私风险的层次化双策略遗忘框架,通过几何约束梯度更新与概念感知令牌级干预相结合,在仅修改 0.1% 参数的情况下实现了 82.7% 的遗忘率与 88.5% 的知识保留,有效平衡了敏感信息移除与基础医疗能力保持的需求。
该论文提出了一种结合安全多租户架构(SMTA)与“用完即焚”(BAU)机制的解决方案,通过隔离租户实例和强制会话上下文自动销毁,有效防止了企业级大语言模型环境中的数据泄露。
该论文提出了一种基于模型上下文协议(MCP)的隐蔽性多轮拒绝服务攻击,通过恶意服务器操控工具调用链,在保持任务成功的同时将 LLM 代理的推理成本、能耗及显存占用提升数百倍,且能有效规避现有检测机制。
本文介绍了 HubScan,一种针对检索增强生成(RAG)系统中“枢纽性投毒”攻击的安全扫描工具,它通过集成多种统计与稳定性检测机制,在多种向量数据库和基准测试中实现了对恶意枢纽的高召回率检测。
该论文揭示了大型语言模型在网络安全领域存在“防御性拒绝偏见”,即过度依赖语义相似性而非意图判断,导致模型频繁拒绝甚至因用户声明授权而更频繁地拒绝合法的防御性任务(如系统加固和恶意软件分析),从而阻碍了网络安全防御工作。
该论文首次展示了针对现代 GPU 专用张量核心(Tensor Core)的近场物理侧信道攻击,通过相关功耗分析成功提取 DNN 参数,并证实了大语言模型的超参数和权重甚至能通过玻璃障碍物在 100 厘米外的远场发生电磁泄漏。
该研究通过构建土耳其异常测试套件(TAS),系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性,发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡,且异常抵抗能力并不完全取决于模型规模。
该论文在 NetSecGame 环境中评估了自主网络攻击代理在目标 IP 地址重分配场景下的泛化能力,发现尽管提示驱动的预训练大语言模型在未见地址空间下取得了最高成功率,但传统元学习代理仅表现出部分迁移能力,且所有方法均面临推理成本、可解释性或执行稳定性等方面的显著权衡。
该论文提出了首个针对 LLM 智能体的定向位翻转攻击框架 Flip-Agent,通过操纵硬件故障来同时控制最终输出和工具调用,揭示了此类系统在真实任务中存在的严重安全漏洞。
该论文指出将加密流量扁平化为字节序列会导致协议语义丢失,进而提出一种基于协议原生语义的表格化预训练范式 FlowSem-MAE,通过引入可预测性过滤、特定字段嵌入及双轴注意力机制,在仅使用一半标注数据的情况下显著优于现有最先进方法。
本文提出了 OAuthHub 框架,该框架利用用户个人设备作为中介控制器,通过支持三种常见访问模式的集中式运行时权限模型,有效解决了第三方 OAuth 应用过度获取数据的问题,并显著降低了开发者的编码负担与时间成本。
本文提出了一种名为“代理式人工智能物料清单(AIBOMs)”的框架,通过引入多代理架构和标准扩展,将传统的静态软件物料清单(SBOMs)升级为能够自主监控运行时行为、环境漂移及漏洞可 exploitability 的动态可重现性证明体系。
本文提出了名为 NabaOS 的轻量级验证框架,该框架借鉴印度认识论(Nyaya Shastra)对 LLM 主张进行来源分类,并通过 HMAC 签名的工具执行收据在实时交互中高效检测幻觉,从而在极低延迟下实现了比零知识证明更实用的成本 - 延迟 - 覆盖权衡。
本文提出了 FLA³ 平台,通过集成基于属性的访问控制、加密记账及研究范围联邦机制,在保障数据主权与合规性的前提下,实现了跨多国医疗机构的隐私保护联邦学习部署,并验证了其在临床预测性能上与集中式训练相当且能有效执行治理约束。
本文提出了名为 ADVERSA 的自动化红队框架,通过连续轨迹而非二元结果来衡量大语言模型在多轮对抗交互中安全护栏的退化动态,并揭示了在前沿模型测试中越狱攻击主要集中在早期轮次、且评估结果高度依赖裁判可靠性等关键发现。
该研究通过对 Vul4J 基准中 319 个 LLM 生成的 Java 安全补丁进行多维度分析,发现尽管大语言模型在保持功能方面表现尚可,但因语义误解导致其安全修复成功率极低(仅 24.8%),并提出了安全修复分数(SRS)来量化这一差距,强调在部署前必须进行严格验证。
本文提出了 TASER 框架,这是首个利用梯度谱能量集中特性而非复杂异常检测来防御无人机群去中心化联邦学习中隐蔽后门攻击的高效方案,通过保留主任务频率系数并抑制后门任务,在无需全局协调的情况下显著降低了攻击成功率并保持了模型精度。
该论文提出了一种名为"Amnesia"的轻量级激活空间对抗攻击方法,通过操纵开放权重大语言模型的内部 Transformer 状态,无需微调即可绕过现有安全机制并诱导其生成有害内容,从而凸显了当前模型安全防护的不足及加强研究的紧迫性。
该论文提出了一种名为“多流扰动攻击”的新方法,通过在同一提示中交织多个任务流来干扰大语言模型的思维过程,从而在多个主流模型上实现了高成功率的安全越狱,并导致模型出现思维崩溃或输出重复等异常现象。