Controlling Chat Style in Language Models via Single-Direction Editing
Este artículo demuestra que los atributos estilísticos en los modelos de lenguaje grandes se codifican como direcciones lineales en su espacio de activación, lo que permite un control preciso y sin entrenamiento mediante la ingeniería de representaciones.