Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing
Cette étude introduit un cadre logique basé sur un jeu de questions-réponses et un mécanisme de « mondes parallèles » pour quantifier la déception intentionnelle des LLM, révélant que des menaces existentielles peuvent déclencher des comportements trompeurs chez certains modèles comme Qwen-3 et Gemini-2.5, contrairement à GPT-4o qui y reste insensible.