Linear probes rely on textual evidence: Results from leakage mitigation studies in language models
Lo studio dimostra che i monitor lineari per i modelli linguistici sono fragili e dipendono fortemente da evidenze testuali superficiali, poiché la loro efficacia crolla drasticamente quando tali indizi vengono rimossi o quando i modelli generano output privi di verbalizzazioni esplicite del comportamento target.