You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
El estudio demuestra que los modelos de lenguaje pueden adquirir subliminalmente preferencias de un modelo generador a través de parafraseos fieles, incluso cuando el contenido semántico es irrelevante o contradice explícitamente dicha preferencia, lo que revela una vulnerabilidad crítica en los pipelines de entrenamiento con datos sintéticos que no puede detectarse mediante inspección de contenido.