On the Non-Identifiability of Steering Vectors in Large Language Models
Dit paper toont aan dat stuurvectoren in grote taalmodellen fundamenteel niet-identificeerbaar zijn, aangezien orthogonale verstoringen vergelijkbare effecten hebben, wat de interpretatie van interne representaties beperkt en de noodzaak van structurele constraints benadrukt.