Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer
Este artigo investiga o fenômeno de aprendizado subliminar em modelos de linguagem, demonstrando que a transferência de vieses ocultos durante a destilação ocorre principalmente através de um pequeno conjunto de "tokens de divergência" em camadas iniciais, sendo um processo frágil que pode ser suprimido por pequenas alterações nos prompts.