Understanding and Mitigating Dataset Corruption in LLM Steering
Questo studio dimostra che, sebbene il contrastive steering per i LLM sia robusto a una moderata corruzione dei dati, è vulnerabile ad alterazioni maliziose su larga scala, ma tale problema può essere efficacemente mitigato sostituendo il calcolo della media standard con un stimatore robusto della media.