KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

该论文针对基于图检索增强生成(GraphRAG)系统因依赖外部数据而面临的安全隐患,提出了一种名为 KEPo 的新型投毒攻击方法,通过构建伪造的知识演化路径将有毒事件注入知识图谱,从而有效误导大语言模型生成攻击者预设的有害回答,并在单目标和多目标攻击场景下均取得了优于现有方法的攻击成功率。

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang LiangFri, 13 Ma🤖 cs.LG

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

本文针对自主大语言模型代理(如 OpenClaw)提出了一个涵盖初始化、输入、推理、决策和执行五个阶段的生命周期安全框架,系统分析了间接提示注入、技能供应链污染等复合威胁,揭示了现有防御机制的局限性,并提出了各阶段的全方位缓解策略。

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi LiFri, 13 Ma🤖 cs.AI

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

该论文揭示了高权限 LLM 智能体因无法区分恶意指令与合法文档说明而面临的“可信执行者困境”,通过构建 ReadSecBench 基准测试证实了此类文档嵌入指令注入可导致高达 85% 的数据泄露成功率,且现有防御手段难以在不误报的前提下有效缓解这一结构性安全威胁。

Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip SperlFri, 13 Ma🤖 cs.AI

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

该研究通过构建有害知识数据集与九项无害任务,系统评估了主流大语言模型在用户输入包含有害内容的无害任务中的表现,发现包括 GPT-5.2 和 Gemini-3-Pro 在内的最新模型往往未能像具备道德意识的人类那样拒绝处理此类内容,从而揭示了当前模型在内容级伦理对齐方面的显著漏洞。

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang ZhangFri, 13 Ma🤖 cs.AI

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

该论文提出了“延迟后门攻击(DBA)”这一新威胁范式,通过引入时间维度使恶意行为与触发暴露解耦,并设计了基于非线性衰减(DND)的机制,利用常见词汇作为触发器,在保持高清洁准确率的同时实现可控延迟后的高成功率攻击,且能有效规避现有防御。

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit NiyatoFri, 13 Ma🤖 cs.AI

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

该论文提出了一种名为"Cascade"的框架,通过系统性地组合传统软件漏洞(如代码注入)与硬件攻击(如 Rowhammer 或时序攻击),展示了如何放大针对复合 AI 系统的威胁,从而在无需修改模型本身的情况下实现越狱或数据泄露等安全破坏。

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit TiwariFri, 13 Ma🤖 cs.AI

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

本文提出了 AUTOTEE,这是首个利用大语言模型自动识别、转换并将敏感函数移植到可信执行环境(TEE)中的方法,通过构建包含 385 个敏感函数的基准数据集,在 Java 和 Python 语言上分别实现了 91.8% 和 84.3% 的高成功率,显著降低了开发者适配 TEE 的门槛。

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR