Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer
Dit onderzoek onthult dat subliminale leerprocessen waarbij taalmodellen verborgen vooroordelen overnemen, voornamelijk worden gedreven door een klein aantal afwijkende tokens in de vroege lagen van het model, en dat dit fenomeen kwetsbaar is voor kleine veranderingen in de prompt.