Understanding and Mitigating Dataset Corruption in LLM Steering
Diese Studie untersucht die Robustheit von Contrastive Steering bei LLMs gegenüber Datenkorruption und zeigt, dass der Austausch der herkömmlichen Mittelwertberechnung durch einen robusten Schätzer die meisten negativen Auswirkungen böswilliger Manipulationen wirksam verhindert.