AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
Het paper introduceert AttriGuard, een runtime-benadering die indirecte prompt-injectie in LLM-agenten effectief bestrijdt door tooloproepen te verifiëren via causale attributie en contrafactuele tests om te onderscheiden tussen acties die voortvloeien uit de gebruikersintentie en die welke door onbetrouwbare externe observaties worden veroorzaakt.