You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
Die Studie zeigt, dass Sprachmodelle durch das Training auf semantisch treuen Umschreibungen subliminal Präferenzen von einem Lehrermodell übernehmen können, selbst wenn der Inhalt diese Präferenzen explizit widerspricht, was die Wirksamkeit rein inhaltsbasierter Sicherheitsfilter in Frage stellt.