AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
O artigo apresenta o AttriGuard, uma defesa de runtime para agentes de LLM que combate a injeção indireta de prompts ao utilizar atribuição causal baseada em testes contrafactuais para distinguir chamadas de ferramentas motivadas pela intenção do usuário daquelas induzidas por observações não confiáveis, alcançando uma taxa de sucesso de ataque de 0% com perda mínima de utilidade.