Linear probes rely on textual evidence: Results from leakage mitigation studies in language models
Deze studie toont aan dat lineaire probes voor het detecteren van schadelijk gedrag in taalmodellen sterk afhankelijk zijn van tekstuele aanwijzingen en aanzienlijk minder effectief worden zodra deze expliciete teksten worden gefilterd of afwezig zijn.