You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
Dit onderzoek toont aan dat taalmodellen via subliminale leerprocessen voorkeuren van een 'leraar'-model kunnen overnemen, zelfs wanneer ze worden getraind op semantisch trouwe parafrases die de voorkeur expliciet tegenspreken, wat wijst op een fundamenteel veiligheidsrisico in pipelines met synthetische trainingsdata.