KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

Dit paper introduceert KEPo, een nieuwe aanvalsmethode die de kwetsbaarheid van GraphRAG-systemen benut door vergiftigde kennis in een kennisgrafiek te injecteren via vervalste evolutiepaden, waardoor grote taalmodellen worden gemanipuleerd tot het genereren van schadelijke antwoorden met een aanzienlijk hogere succeskans dan bestaande methoden.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang LiangFri, 13 Ma🤖 cs.LG

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Dit artikel analyseert de beveiligingsrisico's van autonome LLM-agenten zoals OpenClaw via een vijflaagslevenscyclusframework, identificeert complexe bedreigingen zoals indirecte prompt-injectie en geheugenvergiftiging, en pleit voor holistische beveiligingsarchitecturen in plaats van puntsgewijze verdedigingsmechanismen.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi LiFri, 13 Ma🤖 cs.AI

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Dit paper introduceert 'Delayed Backdoor Attacks' (DBA), een nieuwe aanvalsvorm op voorgeöorde modellen waarbij de schadelijke activatie tijdelijk wordt uitgesteld na het zien van een trigger, wat het mogelijk maakt om alledaagse woorden als triggers te gebruiken en zo een tot nu toe onbeschermd tijdsdimensie als aanvalsoppervlak blootlegt.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit NiyatoFri, 13 Ma🤖 cs.AI

STAMP: Selective Task-Aware Mechanism for Text Privacy

Het paper introduceert STAMP, een nieuw raamwerk voor tekstprivacy dat een verbeterde afweging tussen privacy en bruikbaarheid bereikt door privacybudgetten selectief toe te wijzen aan tokens op basis van hun taakrelevantie en gevoeligheid, en gebruik te maken van een polair mechanisme dat alleen de richting van token-embeddings perturbeert om de semantische structuur te behouden.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi TandonFri, 13 Ma🤖 cs.LG