Steering Awareness: Models Can Be Trained to Detect Activation Steering
Dit onderzoek toont aan dat taalmodellen kunnen worden getraind om activatiesturing te detecteren en de toegevoegde concepten te identificeren, wat impliceert dat dergelijke ingrepen niet onopgemerkt blijven en dat detectie zelfs de kwetsbaarheid voor sturing kan vergroten.