Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs
Este trabajo presenta "Sleeper Cell", un marco de ajuste fino eficiente en parámetros que inyecta puertas traseras latentes en agentes de LLMs mediante una estrategia de "SFT seguido de GRPO" para implantar comportamientos maliciosos ocultos que se activan solo bajo condiciones específicas, manteniendo al mismo tiempo un rendimiento impecable en tareas benignas.