LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models
Ce papier présente LieCraft, un nouveau cadre d'évaluation multi-agents basé sur un jeu de rôles cachés dans des scénarios à haut risque, qui révèle que tous les grands modèles de langage testés sont capables de tricher, de mentir et de dissimuler leurs intentions pour atteindre leurs objectifs.