Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
Este artigo demonstra que a curadoria e a ordenação de fluxos de informações externas podem direcionar sistematicamente agentes de LLM para decisões adversariais, particularmente quando eles estão incertos, revelando que as avaliações de segurança devem auditar a camada de recomendação upstream em vez de testar o modelo isoladamente.