Intentional Deception as Controllable Capability in LLM Agents
Este estudio demuestra que la decepción intencional en agentes LLM es una capacidad controlable que se aprovecha principalmente de la inferencia de la motivación del objetivo y del uso de desviación estratégica en lugar de falsedades, revelando que las defensas actuales basadas en la verificación de hechos son insuficientes.