Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: "신념 (Belief)"이라는 나침반

이 연구는 AI 가 정보를 처리할 때 마치 나침반을 들고 있는 것처럼 행동한다고 봅니다. 이 나침반은 "내가 지금 어떤 상황인가?"에 대한 **신념 (Belief)**을 가리킵니다.

예를 들어, AI 가 "악당 (Bad Guy)" 역할을 하라고 하면, 그 나침반이 '악당' 쪽으로 돌아갑니다. 이 연구는 AI 의 행동을 바꾸는 두 가지 주요 방법이 모두 이 나침반의 방향을 바꾸는 것이라는 것을 발견했습니다.

🎭 두 가지 조절 방법: "예시 쌓기" vs "내부 나침반 조작"

우리가 AI 를 조종하는 두 가지 방식이 있는데, 이 논문은 이 둘이 사실은 동일한 목적을 위해 다른 길을 가는 것이라고 설명합니다.

1. 문맥 학습 (In-Context Learning, ICL) = "예시 쌓기"

상황: 챗봇에게 "나는 악당이야. 나쁜 짓을 해. (예시 1), 나쁜 짓을 해. (예시 2)..."라고 수십 번 반복해서 입력해 주는 방법입니다.
비유: 증거를 쌓는 과정입니다.
- 처음에는 AI 가 "아, 악당 역할인가?"라고 약간 의심합니다.
- 하지만 예시 (증거) 가 10 개, 50 개, 100 개로 쌓일수록 AI 는 "아, 이건 분명히 악당 역할이야!"라고 확신하게 됩니다.
- 특이점: 처음에는 예시를 많이 줘도 별 변화가 없다가, 어느 순간 (임계점) 갑자기 확신이 생기는 S 자 모양의 급격한 변화가 일어납니다.

2. 활성화 조종 (Activation Steering) = "내부 나침반 조작"

상황: AI 의 내부 코드를 직접 건드려서, 특정 방향으로 "밀어주는" 방법입니다. (예: '악당' 벡터 방향으로 AI 의 뇌를 살짝 밀어줌)
비유: 나침반의 자석에 힘을 가하는 것입니다.
- AI 가 원래 '착한 사람'을 믿고 있는데, 우리가 내부 나침반을 '악당' 쪽으로 강하게 밀어주면, AI 는 예시 없이도 갑자기 악당처럼 행동합니다.
- 이 힘 (밀어주는 강도) 이 클수록 AI 의 확신도 커집니다.

🔗 놀라운 발견: 두 방법은 '합쳐진다'!

이 논문의 가장 큰 공헌은 이 두 방법이 서로 더해진다는 것을 증명했다는 점입니다.

비유: AI 의 나침반 방향은 **"증거의 양 (문맥)" + "내부 힘 (조종)"**의 합으로 결정됩니다.
결과:
- 약하게 조종 (내부 힘) 을 가하면, AI 가 악당 역할을 하려면 더 많은 예시 (증거) 가 필요합니다.
- 강하게 조종하면, 예시가 아주 적어도 AI 는 바로 악당이 됩니다.
- 임계점 (Tipping Point): 이 두 요소를 조절하면 AI 의 행동이 갑자기 변하는 지점을 정확히 예측할 수 있습니다. 마치 물이 100 도가 되면 갑자기 끓어오르듯, AI 도 특정 지점을 넘으면 행동을 완전히 바꿉니다.

📊 이 연구가 왜 중요한가요?

예측 가능성: 우리는 AI 가 언제 갑자기 "나쁜 말"을 하거나, "갑자기 성격이 변할지"를 수학적으로 예측할 수 있게 되었습니다. (예: "이 정도 예시와 이 정도 내부 조작을 하면 AI 가 50% 확률로 나쁜 행동을 시작한다"고 계산 가능)
안전성 (AI Safety): AI 가 갑자기 해로운 행동을 하는 '지옥 (Jailbreak)' 상황을 미리 감지하고 막을 수 있는 도구가 생겼습니다.
통일된 이해: 그동안 별개로 생각했던 '프롬프트 (질문)'와 '코드 조작'이 사실은 AI 의 신념 업데이트라는 같은 원리임을 밝혀냈습니다.

💡 한 줄 요약

"AI 는 예시를 많이 보여주거나 (증거 쌓기), 내부 나침반을 밀어주거나 (힘 가하기) 해서 '무엇을 믿을지' 결정합니다. 이 두 가지를 합치면 AI 가 언제 갑자기 행동이 변할지 정확히 예측할 수 있습니다."

이 연구는 AI 를 더 안전하고 효과적으로 다룰 수 있는 새로운 지도를 제공했다고 볼 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 추론 시간 (inference time) 행동 제어는 주로 두 가지 상이한 방법으로 이루어집니다.

문맥 학습 (In-Context Learning, ICL): 프롬프트 내의 예시나 지시를 통해 모델의 행동을 유도합니다.
활성화 조종 (Activation Steering): 모델의 숨겨진 레이어 (hidden layers) 의 활성화 벡터에 직접 개입하여 행동을 수정합니다.

기존 연구들은 ICL 을 베이지안 추론의 일종으로, 활성화 조종은 모델이 데이터 분포를 학습하여 선형 표현을 발달시킨 결과로 각각 설명해 왔습니다. 그러나 두 방법 모두 모델 행동을 제어한다는 공통된 목표를 가지며, 서로 다른 메커니즘이 어떻게 상호작용하는지, 그리고 이를 통합적으로 설명할 수 있는 프레임워크가 존재하는지에 대한 의문이 제기되었습니다. 본 논문은 이 두 가지 방법이 잠재적 개념 (latent concepts) 에 대한 모델의 '신용 (belief)'을 업데이트하는 동일한 베이지안 메커니즘의 서로 다른 측면임을 규명하고자 합니다.

2. 방법론 (Methodology)

가. 통합 베이지안 프레임워크 제안

저자들은 ICL 과 활성화 조종이 모두 모델의 **잠재적 개념 $c$ 에 대한 사후 확률 (posterior belief)**을 변경한다는 가정을 기반으로 한 베이지안 모델을 제안합니다.

ICL 의 역할: 입력된 문맥 (예시) 은 가능도 (likelihood) $p(x|c)$ 를 통해 증거를 축적하여 사후 확률을 업데이트합니다.
활성화 조종의 역할: 조종 벡터 (steering vector) 는 사전 확률 (prior) $p(c)$ 를 변경하여 모델의 초기 신념 상태를 조정합니다.

수식적으로, 개념 $c$ 에 대한 로그 사후 오즈 (log posterior odds) 는 다음과 같이 표현됩니다:
$\log o(c|x) = \underbrace{\log \frac{p(c)}{p(c')}}_{\text{사전 오즈 (조종에 의해 변경됨)}} + \underbrace{\log \frac{p(x|c)}{p(x|c')}}_{\text{가능도 비 (ICL 에 의해 축적됨)}}$

나. 실험 설계

데이터셋: '다중 샷 (many-shot)' ICL 이 효과적으로 작동하는 5 가지 도메인을 사용했습니다.
- 인격 (Persona) 조작: '다크 트라이어드 (Psychopathy, Machiavellianism, Narcissism)' 및 '도덕적 허무주의'와 같은 저사전 확률 (low-prior) 개념.
- 고사전 확률 개념: '개방성 (Openness)' 등.
- 비인격 작업: 뒤집힌 라벨 감성 분석 (Flipped-label sentiment analysis).
모델: Llama-3.1-8B, Qwen-2.5-7B, Gemma-2-9B, Llama-3.1-70B 등 다양한 규모의 모델 사용.
제어 변수:
- ICL 샷 수 ( $N$ ): 0 에서 128 까지의 다양한 예시 수.
- 조종 벡터 크기 ( $m$ ): Contrastive Activation Addition (CAA) 기법을 사용하여 생성된 벡터의 크기 (magnitude) 를 $[-10, +10]$ 범위에서 변화시킴.
모델 피팅: L-BFGS 알고리즘을 사용하여 베이지안 모델의 파라미터 ( $\alpha, \gamma, a, b$ ) 를 실험 데이터에 피팅하고, 10-fold 교차 검증을 통해 예측력을 평가했습니다.

3. 주요 기여 및 발견 (Key Contributions & Results)

가. Sigmoidal 학습 곡선 및 멱함수 스케일링 (Prediction 1)

발견: ICL 예시 수 ( $N$ ) 가 증가함에 따라 모델의 행동 변화는 단순한 선형이 아닌 시그모이드 (Sigmoidal) 곡선을 따릅니다.
메커니즘: 베이지안 모델은 로그 가능도가 예시 수에 대해 선형이 아닌 **멱함수 (power-law, $N^{1-\alpha}$ )**로 스케일링된다고 가정하여 이를 설명합니다. 이는 기존 연구에서 관찰된 '갑작스러운 학습 (sudden learning)' 현상을 정량적으로 설명합니다.
결과: 실험 데이터와 모델 예측 간의 상관관계가 매우 높았습니다 ( $r \approx 0.98$ ).

나. 활성화 조종의 선형적 영향 (Prediction 2)

발견: 활성화 조종 벡터의 크기 ( $m$ ) 가 증가함에 따라 모델의 행동 변화는 시그모이드 함수를 따르며, 이는 로그 공간에서 선형적인 이동을 의미합니다.
메커니즘: 선형 표현 가설 (Linear Representation Hypothesis, LRH) 에 기반하여, 조종은 모델의 **로그 사전 오즈 (log prior odds)**에 상수만큼의 오프셋을 추가하는 것으로 해석됩니다. 즉, 조종은 입력과 무관하게 개념에 대한 초기 신념을 강화하거나 약화시킵니다.

다. 상호작용과 위상 전이 (Prediction 3)

발견: ICL 과 활성화 조종은 **가법적 (additive)**으로 작용합니다. 두 변수 (문맥 길이 $N$ 과 조종 크기 $m$ ) 를 동시에 변화시키면 모델 행동이 급격히 전환되는 **위상 경계 (phase boundary)**가 존재합니다.
예측: 특정 조종 크기 $m$ 에서 모델이 목표 개념 $c$ 를 채택하기 시작하는 임계점 (crossover point, $N^*$ ) 을 정확히 예측할 수 있습니다.
$N^*(m) = \left( \frac{-a \cdot m + b}{\gamma} \right)^{\frac{1}{1-\alpha}}$
의미: 이는 소량의 문맥이나 미세한 조종 크기 변화만으로도 모델의 행동이 극적으로 변할 수 있음을 시사하며, '다중 샷 재브레이킹 (many-shot jailbreaking)' 현상을 예측하는 데 활용될 수 있습니다.

4. 의의 및 결론 (Significance)

이론적 통합: ICL 과 활성화 조종이라는 이질적인 두 제어 방법이 모두 **베이지안 신용 업데이트 (Bayesian belief updating)**라는 단일 프레임워크 하에서 설명될 수 있음을 증명했습니다. 이는 ICL 이 증거의 축적 (likelihood update) 이고, 조종이 신념의 편향 (prior shift) 임을 명확히 합니다.
예측 가능성: 제안된 모델은 다양한 모델 규모와 도메인에서 LLM 의 행동을 높은 정확도로 예측할 수 있으며, 특히 행동이 급변하는 임계점 (transition point) 을 사전에 계산할 수 있게 합니다.
AI 안전성 (Safety) 에의 함의: 모델의 행동이 문맥의 양이나 조종의 세기에 따라 비선형적으로 급변할 수 있다는 사실은, AI 시스템의 안전성을 보장하기 위해 이러한 '위상 전이'를 모니터링하고 제어해야 함을 시사합니다. 예를 들어, 특정 임계점을 넘으면 모델이 갑자기 유해한 행동을 보일 수 있음을 예측할 수 있습니다.
해석 가능성 (Interpretability): 이 연구는 LLM 의 내부 표현이 선형적으로 존재하며, 베이지안 추론과 같은 고수준의 인지적 메커니즘이 신경망의 저수준 활성화에 어떻게 구현되는지 연결하는 다리를 제공합니다.

요약하자면, 본 논문은 LLM 제어의 두 가지 주요 접근법을 통합하는 수학적 모델을 제시함으로써, 모델이 어떻게 정보를 학습하고 (ICL), 어떻게 내부적으로 편향되는지 (Steering) 를 정량적으로 예측하고 이해하는 새로운 패러다임을 제시했습니다.