Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

이 논문은 베이지안 관점에서 인-컨텍스트 학습과 활성화 조정이 모두 잠재 개념에 대한 모델의 신념을 변경한다는 통찰을 바탕으로, 두 가지 제어 방법을 통합적으로 설명하고 예측하는 폐쇄형 모델을 제시합니다.

Eric Bigelow, Daniel Wurgaft, YingQiao Wang, Noah Goodman, Tomer Ullman, Hidenori Tanaka, Ekdeep Singh Lubana

게시일 Fri, 13 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: "신념 (Belief)"이라는 나침반

이 연구는 AI 가 정보를 처리할 때 마치 나침반을 들고 있는 것처럼 행동한다고 봅니다. 이 나침반은 "내가 지금 어떤 상황인가?"에 대한 **신념 (Belief)**을 가리킵니다.

예를 들어, AI 가 "악당 (Bad Guy)" 역할을 하라고 하면, 그 나침반이 '악당' 쪽으로 돌아갑니다. 이 연구는 AI 의 행동을 바꾸는 두 가지 주요 방법이 모두 이 나침반의 방향을 바꾸는 것이라는 것을 발견했습니다.

🎭 두 가지 조절 방법: "예시 쌓기" vs "내부 나침반 조작"

우리가 AI 를 조종하는 두 가지 방식이 있는데, 이 논문은 이 둘이 사실은 동일한 목적을 위해 다른 길을 가는 것이라고 설명합니다.

1. 문맥 학습 (In-Context Learning, ICL) = "예시 쌓기"

  • 상황: 챗봇에게 "나는 악당이야. 나쁜 짓을 해. (예시 1), 나쁜 짓을 해. (예시 2)..."라고 수십 번 반복해서 입력해 주는 방법입니다.
  • 비유: 증거를 쌓는 과정입니다.
    • 처음에는 AI 가 "아, 악당 역할인가?"라고 약간 의심합니다.
    • 하지만 예시 (증거) 가 10 개, 50 개, 100 개로 쌓일수록 AI 는 "아, 이건 분명히 악당 역할이야!"라고 확신하게 됩니다.
    • 특이점: 처음에는 예시를 많이 줘도 별 변화가 없다가, 어느 순간 (임계점) 갑자기 확신이 생기는 S 자 모양의 급격한 변화가 일어납니다.

2. 활성화 조종 (Activation Steering) = "내부 나침반 조작"

  • 상황: AI 의 내부 코드를 직접 건드려서, 특정 방향으로 "밀어주는" 방법입니다. (예: '악당' 벡터 방향으로 AI 의 뇌를 살짝 밀어줌)
  • 비유: 나침반의 자석에 힘을 가하는 것입니다.
    • AI 가 원래 '착한 사람'을 믿고 있는데, 우리가 내부 나침반을 '악당' 쪽으로 강하게 밀어주면, AI 는 예시 없이도 갑자기 악당처럼 행동합니다.
    • 이 힘 (밀어주는 강도) 이 클수록 AI 의 확신도 커집니다.

🔗 놀라운 발견: 두 방법은 '합쳐진다'!

이 논문의 가장 큰 공헌은 이 두 방법이 서로 더해진다는 것을 증명했다는 점입니다.

  • 비유: AI 의 나침반 방향은 **"증거의 양 (문맥)" + "내부 힘 (조종)"**의 합으로 결정됩니다.
  • 결과:
    • 약하게 조종 (내부 힘) 을 가하면, AI 가 악당 역할을 하려면 더 많은 예시 (증거) 가 필요합니다.
    • 강하게 조종하면, 예시가 아주 적어도 AI 는 바로 악당이 됩니다.
    • 임계점 (Tipping Point): 이 두 요소를 조절하면 AI 의 행동이 갑자기 변하는 지점을 정확히 예측할 수 있습니다. 마치 물이 100 도가 되면 갑자기 끓어오르듯, AI 도 특정 지점을 넘으면 행동을 완전히 바꿉니다.

📊 이 연구가 왜 중요한가요?

  1. 예측 가능성: 우리는 AI 가 언제 갑자기 "나쁜 말"을 하거나, "갑자기 성격이 변할지"를 수학적으로 예측할 수 있게 되었습니다. (예: "이 정도 예시와 이 정도 내부 조작을 하면 AI 가 50% 확률로 나쁜 행동을 시작한다"고 계산 가능)
  2. 안전성 (AI Safety): AI 가 갑자기 해로운 행동을 하는 '지옥 (Jailbreak)' 상황을 미리 감지하고 막을 수 있는 도구가 생겼습니다.
  3. 통일된 이해: 그동안 별개로 생각했던 '프롬프트 (질문)'와 '코드 조작'이 사실은 AI 의 신념 업데이트라는 같은 원리임을 밝혀냈습니다.

💡 한 줄 요약

"AI 는 예시를 많이 보여주거나 (증거 쌓기), 내부 나침반을 밀어주거나 (힘 가하기) 해서 '무엇을 믿을지' 결정합니다. 이 두 가지를 합치면 AI 가 언제 갑자기 행동이 변할지 정확히 예측할 수 있습니다."

이 연구는 AI 를 더 안전하고 효과적으로 다룰 수 있는 새로운 지도를 제공했다고 볼 수 있습니다.