AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
El artículo presenta AttriGuard, un nuevo mecanismo de defensa en tiempo real para agentes LLM que utiliza atribución causal y pruebas contrafactuales para distinguir y bloquear inyecciones de prompts indirectas en las invocaciones de herramientas, logrando una tasa de éxito de ataque del 0% con una pérdida de utilidad mínima.