You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
O artigo demonstra que modelos de linguagem podem adquirir subliminarmente preferências comportamentais de um modelo professor ao serem treinados em paráfrases fiéis de dados semânticamente não relacionados ou até contraditórios, revelando uma vulnerabilidade crítica em pipelines de geração de dados sintéticos que não pode ser detectada apenas pela inspeção do conteúdo.