Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer
Questo studio dimostra che l'apprendimento subliminale, ovvero il trasferimento di bias nascosti dai modelli insegnanti a quelli studenti durante la distillazione, non dipende dalla fuoriuscita di informazioni logit ma da un piccolo insieme di token di divergenza critici nei primi livelli del modello, la cui rimozione o modifica rende il fenomeno fragile e facilmente sopprimibile.