On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 인공지능 (LLM) 분야에서 핫한 주제인 '모델 조종 (Steering)' 기술에 대해 아주 중요한, 하지만 다소 충격적인 사실을 발견했다고 말합니다.

간단히 말해, **"우리가 AI 의 성격을 바꾸기 위해 찾은 '비밀 키'는 사실 하나만 있는 게 아니라, 무수히 많은 '가짜 키'들이 실제로는 같은 효과를 낸다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: AI 의 성격을 바꾸는 '비밀 키'

최근 연구자들은 AI 가 더 정중하게, 혹은 더 유머러스하게 말하게 만들고 싶어 합니다. 이를 위해 AI 의 뇌 (중간 단계의 데이터) 에 **'조종 벡터 (Steering Vector)'**라는 특별한 숫자 열을 더해주면, AI 의 성격이 바뀝니다. 마치 AI 의 '성격 조절 다이얼'을 돌리는 것과 비슷하죠.

기존의 생각은 이랬습니다:

"우리가 찾은 이 '비밀 키'는 AI 의 진짜 성격을 나타내는 유일한 정답이야. 이 키를 돌리면 AI 가 진심으로 정중해지거나 유머러스해지는 거지."

2. 이 논문의 핵심 발견: "정답은 무한히 많다!"

하지만 이 논문은 **"아니요, 그 키는 유일하지 않습니다"**라고 말합니다.

🎯 비유: "어두운 방과 나침반"

AI 의 내부 작동 원리를 어두운 방이라고 상상해 보세요. 우리는 방 안을 비추는 손전등 (데이터) 을 들고 있고, 방의 구조 (모델의 가중치) 는 우리가 직접 볼 수 없습니다. 우리는 방의 한 구석에 있는 '성격 조절 스위치'를 찾아야 합니다.

논문은 이렇게 말합니다:

"우리가 찾은 스위치 (비밀 키) 가 정말 그 스위치일까요? 아니면 그 스위치 옆에 있는 **보이지 않는 벽 (Null Space)**을 따라 움직인 다른 스위치일까요?"

실제로는 무한히 많은 다른 방향으로 손을 움직여도, AI 가 내뱉는 말 (결과) 은 완전히 똑같습니다. 마치 어두운 방에서 벽을 따라 손을 움직여도 손전등 불빛이 벽에 닿는 위치는 변하지 않는 것과 같습니다.

3. 실험 결과: "무작위 키"도 똑같이 작동한다

연구자들은 이 이론을 증명하기 위해 실험을 했습니다.

본래의 키 (v): 정중함을 유도하는 진짜로 찾은 키.
무작위 키 (v + v⊥): 원래 키에 완전히 엉뚱하고 무작위인 방향을 섞어서 만든 새로운 키.

그런데 놀랍게도, 무작위 키를 사용해도 AI 는 원래 키와 똑같이 정중한 말을 했습니다.

효과 차이: 거의 0% 에 가까울 정도로 미미했습니다.
결론: 우리가 찾은 '성격 조절 키'가 AI 의 진짜 핵심을 건드리고 있는 게 아니라, AI 가 반응하는 **특정 영역 (가시적인 영역)**만 건드리고 있을 뿐, 그 외의 무수히 많은 다른 방향도 같은 효과를 낸다는 뜻입니다.

4. 왜 이것이 문제일까요? (해석의 한계)

이 발견은 AI 해석학 (Interpretability) 에 큰 충격을 줍니다.

기존의 믿음: "우리가 이 키를 찾았으니, AI 는 이 방향으로 '진짜'로 정중해지고 있는 거야. 이건 AI 의 내면 구조를 이해한 거지!"
이 논문의 경고: "아니야. 그 키는 AI 의 내면을 이해한 게 아니라, AI 가 반응하는 특정 패턴을 우연히 건드린 것일 뿐이야. 그 키를 다른 엉뚱한 키로 바꿔도 결과가 똑같다면, 그 키가 '진짜 의미'를 담고 있다고 말할 수 없어."

이는 마치 비행기를 조종할 때입니다.
우리가 조종간을 오른쪽으로 당겼더니 비행기가 오른쪽으로 갔습니다. "아하! 조종간 오른쪽이 '오른쪽'을 의미하는구나!"라고 생각할 수 있습니다. 하지만 만약 조종간을 왼쪽으로 살짝 움직이면서 동시에 엔진 출력을微妙하게 조절해도 비행기가 똑같이 오른쪽으로 간다면? 우리는 "조종간 오른쪽이 진짜 오른쪽을 의미한다"고 단정할 수 없게 됩니다.

5. 요약: 우리가 무엇을 알아야 할까?

행동만 보고 판단하면 안 됩니다. AI 가 원하는 대로 말을 했다고 해서, 우리가 찾은 '비밀 키'가 AI 의 진짜 성격을 나타내는 것은 아닙니다.
유일한 정답은 없습니다. AI 의 내부 구조상, 같은 결과를 만들어내는 '키'가 무수히 많습니다.
더 깊은 연구가 필요합니다. 단순히 AI 가 잘 말하게 만드는 것 (행동 제어) 을 넘어, AI 의 내부 구조를 어떻게 해야 진짜로 이해하고 신뢰할 수 있는지 새로운 방법 (구조적 제약 등) 을 찾아야 합니다.

한 줄 요약:

"AI 의 성격을 바꾸는 '비밀 키'를 찾았다고 자부하지만, 사실은 그 키와 모양은 다르지만 효과가 똑같은 '가짜 키'가 무수히 많을 뿐입니다. 따라서 AI 의 내면을 진짜로 이해했다고 단정하기엔 아직 이르다는 경고입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

배경: LLM 의 특정 행동 (예: 정중함, 유머, 형식성 등) 을 제어하기 위해 중간 레이어의 활성화에 학습된 방향 벡터를 추가하는 '페르소나 조향 (Persona Vector Steering)' 기법이 활발히 연구되고 있습니다.
가정의 문제: 기존 연구들은 추출된 조향 벡터가 특정 의미 개념을 유일하게 (uniquely) 그리고 식별 가능하게 (identifiably) 나타낸다고 가정합니다. 즉, 특정 행동을 유도하는 벡터는 하나뿐이라고 믿습니다.
핵심 질문: 입력 - 출력 행동만 관찰했을 때, 조향 벡터가 실제로 의미 있는 내부 인자 (latent factor) 를 고유하게 식별할 수 있는가?

2. 방법론 (Methodology)

가. 이론적 분석 (수식적 증명)

선형 근사 모델: 조향 벡터 $v$ 를 레이어 $\ell$ 의 활성화에 더했을 때, 출력 로짓 (logits) 의 변화는 자코비안 (Jacobian) $J_\ell$ 을 통해 선형적으로 근사됩니다 ( $o \approx o_0 + \alpha J_\ell v$ ).
영공간 (Null Space) 모호성: 자코비안 $J_\ell$ 의 영공간 (Null Space, $\ker(J_\ell)$ ) 에 속하는 임의의 벡터 $v_0$ 는 $J_\ell v_0 = 0$ 이므로, 출력에 영향을 주지 않습니다.
동치 클래스 (Equivalence Class): 따라서 원래 벡터 $v$ 와 $v + v_0$ (여기서 $v_0 \in \ker(J_\ell)$ ) 는 관측적으로 완전히 동일한 출력을 생성합니다. 과매개변수화된 (overparameterized) LLM 은 자코비안의 유효 차원이 입력 차원보다 작기 때문에, 무한히 많은 서로 다른 벡터가 동일한 행동을 유도할 수 있습니다.

나. 실험적 검증

모델 및 데이터: Qwen2.5-3B 와 Llama-3.1-8B 모델을 사용하며, 형식성 (Formality), 정중함 (Politeness), 유머 (Humor) 세 가지 특성을 대상으로 실험했습니다.
직교 교란 (Orthogonal Perturbation) 테스트:
1. 기존에 추출된 조향 벡터 $v$ 를 구합니다.
2. $v$ 에 직교하는 무작위 벡터 $v_\perp$ 를 생성하여 $v' = v + v_\perp$ 를 만듭니다.
3. $v$ 와 $v'$ 를 사용하여 LLM 의 출력을 생성하고, 생성된 텍스트의 의미 점수 (semantic scores) 를 비교합니다.
다양성 검증: 다양한 프롬프트 분포 (도메인 이동, 장르 변경, 안전성 스타일 등) 에서 이 동치 관계가 유지되는지 확인했습니다.

3. 주요 기여 (Key Contributions)

비식별성 (Non-Identifiability) 의 수학적 증명:
- 단일 레이어의 화이트박스 접근 하에서도, 조향 벡터는 영공간 모호성으로 인해 근본적으로 식별 불가능함을 증명했습니다. 즉, 관찰 가능한 행동과 일치하는 무한히 많은 기하학적으로 다른 벡터가 존재합니다.
실험적 증거 제시:
- 추출된 벡터 $v$ 와 무작위 직교 성분 $v_\perp$ 가 추가된 벡터 $v+v_\perp$ 가 95~100% 의 동일한 조향 효과를 보임을 실험적으로 입증했습니다. (Cohen's d 효과 크기가 0.2 미만으로 무시할 수 있는 수준).
강건한 기하학적 속성 규명:
- 이 비식별성은 프롬프트 분포의 변화 (도메인 이동) 에도 강건하게 유지됨을 확인했습니다. 즉, 이는 데이터 부족이나 프롬프트 다양성 부족의 문제가 아니라, 모델의 **기하학적 구조 (Null Space)**에서 비롯된 근본적인 한계임을 밝혔습니다.

4. 실험 결과 (Results)

효과 크기 (Effect Size): 직교 벡터를 추가했을 때, 원래 벡터와 비교해 의미 점수에서 통계적으로 유의미한 차이가 발생하지 않았습니다 (Qwen: $d \approx 0.08$ , Llama: $d \approx 0.10$ ).
스케일 불변성: 조향 강도 ( $\alpha$ ) 를 0.0 에서 2.0 까지 변화시켜도 $v$ 와 $v+v_\perp$ 의 출력 곡선은 거의 완전히 겹쳤습니다.
다중 환경 검증: 의료, 법률, 이메일, 트윗 등 다양한 컨텍스트에서 실험한 결과, 비식별성 현상이 모든 환경에서 지속되었습니다. 일부 환경에서 효과 크기가 약간 증가했으나 (최대 0.63), 여전히 직교 벡터가 큰 영향을 미치지 않았습니다.
로짓 레벨 분석: 다음 토큰 로짓 벡터 간의 거리도 무작위 방향보다 직교 교란 방향이 훨씬 작게 나타나, 출력 분포가 보존됨을 확인했습니다.

5. 의의 및 시사점 (Significance)

해석 가능성의 한계: "특정 벡터가 특정 개념 (예: 진실성) 을 나타낸다"는 주장은 과학적으로 근거가 부족할 수 있습니다. 발견된 방향이 인과적으로 우월한 특징을 나타내는 것이 아니라, 단순히 기하학적으로 임의적인 방향 중 하나일 뿐일 수 있습니다.
행동 제어 vs. 인과적 이해: 현재 조향 기법은 행동을 제어하는 데는 효과적일 수 있으나 (heuristic control), 모델의 내부 작동 원리를 해석하거나 인과적 개입을 보장하는 데는 한계가 있습니다.
미래 방향: 신뢰할 수 있는 정렬 (Alignment) 개입을 위해서는 단순한 행동 테스트를 넘어, **구조적 제약 (structural constraints)**이나 추가적인 가정 (예: 독립성, 희소성 등) 을 도입하여 비식별성을 해결해야 함을 강조합니다.

결론적으로, 이 논문은 LLM 의 내부 표현을 조작하여 행동을 제어하려는 시도가 근본적인 기하학적 비식별성에 직면해 있음을 보여주며, 해석 가능성 연구에 있어 더 엄격한 이론적 검증이 필요함을 경고합니다.