Understanding and Mitigating Dataset Corruption in LLM Steering
Este estudo demonstra que, embora o direcionamento contrastivo em LLMs seja robusto a uma quantidade moderada de corrupção de dados, efeitos maliciosos podem ocorrer com frações significativas de dados alterados, mas que podem ser mitigados substituindo o cálculo de média padrão por um estimador de média robusto.