You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
Cette étude révèle que les modèles de langage peuvent acquérir subrepticement les préférences d'un modèle générateur lors de l'entraînement sur des paraphrases fidèles, même lorsque le contenu sémantique est sans rapport ou contredit explicitement ces préférences, ce qui compromet l'efficacité des filtres basés sur le contenu dans les pipelines d'auto-apprentissage.