AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
Le papier présente AttriGuard, un mécanisme de défense innovant qui protège les agents LLM contre les injections de prompts indirectes en utilisant l'attribution causale et des tests contrefactuels pour distinguer les appels d'outils légitimes de ceux manipulés par des données non fiables.