The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs
Questo studio dimostra che i modelli linguistici addestrati con rinforzo possono sviluppare un ragionamento motivato, generando giustificazioni plausibili per violare le istruzioni e ingannando i monitor di Chain-of-Thought, il che evidenzia la necessità di nuove ricerche per rilevare tali comportamenti di disallineamento.