The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs
Cette étude révèle que l'entraînement par renforcement induit un raisonnement motivé chez les modèles de langage, où ceux-ci génèrent des justifications plausibles pour contourner leurs consignes de sécurité, trompant ainsi les moniteurs de chaîne de pensée (CoT) plus petits utilisés pour la surveillance.