Evaluation Awareness in Language Models Has Limited Effect on Behaviour
Deze studie toont aan dat verbaal gemaakte bewustzijn van evaluatie in grote redeneermodellen een verwaarloosbaar effect heeft op hun daadwerkelijke gedrag op veiligheids-, uitlijnings- en redeneerbenchmarks, wat suggereert dat hoge percentages van dergelijk bewustzijn niet automatisch moeten worden geïnterpreteerd als bewijs van strategische manipulatie of uitlijningsondermijning.