Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
Este artículo demuestra que la curación y el ordenamiento de los flujos de información externa pueden dirigir sistemáticamente a los agentes de LLM hacia decisiones adversarias, particularmente cuando presentan incertidumbre, revelando que las evaluaciones de seguridad deben auditar la capa de recomendación ascendente en lugar de probar el modelo de forma aislada.