Understanding and Mitigating Dataset Corruption in LLM Steering
Dit onderzoek toont aan dat contrastieve sturing van grote taalmodellen kwetsbaar is voor kwaadwillende datasetcorruptie, maar dat deze kwetsbaarheid effectief kan worden gemitigeerd door het gebruik van robuuste schatters voor het berekenen van het gemiddelde.