AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
Die Arbeit stellt AttriGuard vor, eine Laufzeit-Verteidigung für LLM-Agenten, die durch kausale Attribution und kontrafaktische Tests indirekte Prompt-Injection-Angriffe effektiv abwehrt, indem sie Tool-Aufrufe auf ihre Notwendigkeit basierend auf der Benutzerabsicht überprüft.