AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
AttriGuard è un nuovo sistema di difesa per agenti LLM che contrasta l'iniezione indiretta di prompt (IPI) utilizzando l'attribuzione causale e test controfattuali paralleli per verificare se le chiamate agli strumenti sono realmente motivate dall'intento dell'utente e non da osservazioni non attendibili, ottenendo così un tasso di successo degli attacchi nullo con una perdita minima di utilità.