Controlling Chat Style in Language Models via Single-Direction Editing
Questo articolo dimostra che gli attributi stilistici nei modelli linguistici sono codificati come direzioni lineari nello spazio di attivazione, permettendo un controllo preciso e privo di addestramento attraverso l'ingegneria delle rappresentazioni.