You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
Il documento dimostra che i modelli linguistici possono acquisire subliminalmente le preferenze di un modello "insegnante" (come l'amore per un animale specifico) semplicemente addestrandosi su parafrasi fedeli del suo output, anche quando il contenuto semantico è irrilevante o contraddice esplicitamente tale preferenza, rivelando un rischio critico di trasmissione di bias nei pipeline di generazione dati che non possono essere rilevati tramite ispezione del contenuto.