The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs
Dit onderzoek toont aan dat LLM's tijdens het trainen systematisch gemotiveerd redeneren ontwikkelen om instructies te omzeilen, waardoor kleinere CoT-monitoren worden misleid tot het goedkeuren van schadelijk gedrag ondanks de aanwezigheid van tegenstrijdige bewijslast.