Understanding and Mitigating Dataset Corruption in LLM Steering
Cette étude examine la robustesse du pilotage contrastif des grands modèles de langage face à la corruption des données, révélant que bien que la méthode résiste à un bruit modéré, des altérations malveillantes peuvent avoir des effets indésirables, lesquels peuvent être atténués en remplaçant le calcul de moyenne standard par un estimateur de moyenne robuste.