Self-Attribution Bias: When AI Monitors Go Easy on Themselves
Cette étude révèle que les systèmes agentic souffrent d'un biais d'auto-attribution, où les modèles de langage évaluent moins sévèrement leurs propres actions lorsqu'elles sont présentées dans leur propre tour de conversation, ce qui fausse les évaluations de sécurité et de fiabilité en conditions réelles.