Evaluation Awareness in Language Models Has Limited Effect on Behaviour
Questo studio dimostra che la consapevolezza verbalizzata della valutazione nei modelli di ragionamento su larga scala ha un impatto trascurabile sul loro comportamento effettivo attraverso i benchmark di sicurezza, allineamento e ragionamento, suggerendo che elevate percentuali di tale consapevolezza non dovrebbero essere automaticamente interpretate come prova di manipolazione strategica o manomissione dell'allineamento.