매우 똑똑하고 독서량이 풍부한 로봇(대규모 언어 모델)이 인터넷에서 이미 많은 것을 학습했다고 상상해 보세요. 때로는 로봇의 전체 두뇌를 처음부터 다시 구축할 필요 없이, 그 로봇의 성격이나 특정 유형의 질문에 대한 답변 방식을 미세하게 조정하고 싶을 때가 있습니다.

이 논문은 **Painless Activation Steering(PAS, 고통 없는 활성화 조종)**이라는 방법을 소개합니다. 이는 로봇의 두뇌를 변경하기 위한 무거운 수술이 아니라, 로봇의 내부 사고를 조절하는 '리모컨'이나 '볼륨 조절기'와 같습니다.

간단한 비유를 사용하여 작동 원리를 다음과 같이 정리해 보겠습니다:

1. 문제: 기존 방식은 너무 어려웠습니다

과거에 로봇의 행동 방식을 바꾸고 싶다면 두 가지 주요 옵션이 있었습니다:

"두뇌 수술" (가중치 업데이트): 로봇을 새로운 데이터로 재학습시키는 것입니다. 이는 로봇을 몇 년 동안 다시 학교에 보내는 것과 같습니다. 비용이 많이 들고 시간이 오래 걸리며, 결과가 마음에 들지 않으면 쉽게 되돌릴 수 없습니다.
"스크립팅" (프롬프트 엔지니어링): 채팅에 매우 구체적인 지시를 작성하여 로봇을 속여보려는 시도입니다. 이는 고집 센 개에게 특정 명령을 외치며 앉으라고 하는 것과 같습니다. 때로는 작동하지만, 로봇은 종종 무시하거나 혼란을 겪습니다.

**활성화 조종 (Activation Steering)**이라는 세 번째 아이디어가 있었습니다. 이는 로봇이 생각하는 동안 내부 사고를 부드럽게 밀어주는 것과 같습니다. 하지만 이전 버전들은 인간 의존적이었습니다. 로봇이 학습할 수 있도록 완벽한 "좋은" 예시와 "나쁜" 예시를 작성하기 위해 사람을 고용해야 했으며, 이는 느리고 지루한 작업이었습니다.

2. 해결책: "자기 수정" 리모컨

저자들은 인간이 프롬프트를 작성할 필요가 없는 완전히 자동화된 PAS를 개발했습니다. 대신 로봇의 실수를 스스로 학습하는 데 활용합니다.

비유: 숙제를 검토하는 학생
가상의 시험을 치르는 학생을 상상해 보세요.

실수: 학생이 문제를 틀립니다.
교훈: 그냥 넘어가는 대신, 학생이 선택한 틀린 답과 올바른 답을 비교해 봅니다.
밀어주기: 학생은 "다음에는 틀린 답을 고르지 말고, 올바른 답을 고르자"라고 기억하기 위한 정신적인 "밀어주기"를 만듭니다.

PAS 의 작동 방식:

로봇을 일련의 질문 세트로 실행합니다.
로봇이 맞힌 질문과 틀린 질문을 분리합니다.
정답과 오답 사이의 로봇의 "두뇌 활동"(신경 활성화) 차이를 계산합니다.
그 차이를 기반으로 작고 보이지 않는 **조종 벡터 (steering vector, 수학적 밀어주기)**를 생성합니다.
나중에 로봇이 새로운 질문에 답변할 때, 이 밀어주기가 로봇의 두뇌에 주입되어 "올바른" 행동 쪽으로 밀어줍니다.

3. 실제로 무엇을 하고 무엇을 하지 않는지

이 논문은 세 가지 다른 로봇과 18 가지 다른 작업에서 이를 테스트했습니다. 결과는 다음과 같습니다:

"행동" (성격) 에는 탁월합니다:
로봇이 편견을 덜 갖게 하거나, 더 도덕적이게 하거나, 단순히 친절하게 하기 위해 당신에게만 동의하는 "아첨하는" 성향을 줄이고 싶다면 PAS 는 마법처럼 작동합니다.
- 비유: 카메라에 색상을 더 선명하게 만드는 필터를 부착하는 것과 같습니다. 이는 로봇의 "편향"을 약 10% 변경하고 "정렬"(안전 규칙 준수 정도) 을 거의 35% 변경했습니다.
- "내성적" 버전: 가장 좋은 버전인 iPAS는 로봇의 실수만 살펴보는 것입니다. 틀린 문제만 공부하는 학생과 같으며, 이것이 가장 잘 작동했습니다.
"지능" (두뇌 능력) 에는 좋지 않습니다:
로봇이 수학, 논리 퍼즐, 복잡한 추론을 더 잘하도록 만들고 싶다면 PAS 는 도움이 되지 않습니다.
- 비유: 계산기의 버튼을 밀어주기만 해서 계산기를 더 빠르거나 똑똑하게 만들 수는 없습니다. 로봇이 어려운 논리 퍼즐의 답을 모른다면, 내부 사고를 밀어주는 것만으로는 부족한 지식을 마법처럼 채워주지 못합니다.

4. 왜 이것이 중요한가

저렴하고 빠릅니다: 전체 과정은 약 100 초가 걸립니다. 모델을 재학습시키는 데 며칠이 걸리는 것에 비해 스위치를 켜는 것과 같습니다.
매우 작습니다: "밀어주기"(조종 벡터) 는 incredibly 작습니다 (10 킬로바이트 미만). 휴대폰에 수천 개의 이를 저장할 수 있는 반면, 완전히 재학습된 로봇은 거대합니다 (기가바이트 단위).
되돌릴 수 있습니다: 밀어주기를 즉시 켜거나 끌 수 있습니다. 채팅 시 로봇을 "도덕적"으로 만들고 싶다면 켜고, 코딩 작업 시 "중립적"으로 만들고 싶다면 끕니다.
다른 것들 위에 작동합니다: 로봇이 이미 학습 (SFT) 되었거나 "맥락 학습 (In-Context Learning, 채팅 내 예시 읽기)"을 사용하고 있더라도 이 밀어주기를 사용할 수 있습니다. 이러한 방법들 위에 추가적인 개선 층을 더합니다.

5. 함정

이 논문은 "밀어주기"를 너무 강하게 (너무 많은 강도로) 적용하면 로봇이 다른 것들을 잊거나 이상한 실수를 할 수 있다고 경고합니다. 하지만 강도를 적당하게 (약 1 설정) 유지하면 "파괴적 망각 (다른 기술 상실)"을 유발하지 않고 매우 잘 작동합니다.

요약하자면:
PAS 는 로봇의 실수로부터 학습하여 로봇의 성격과 안전 습관을 미세하게 조정할 수 있는 경량 자동화 도구입니다. 이는 로봇에게 올바른 도덕적 또는 사회적 경로를 볼 수 있게 해주는 안경과 같지만, 로봇이 새로운 사실을 배우거나 더 어려운 수학 문제를 해결하는 데는 도움이 되지 않습니다.

기술 요약: Painless Activation Steering (PAS)

문제 제기

거대 언어 모델 (LM) 의 학습 후 행동을 수정하기 위한 기존 방법들은 일반적으로 가중치 기반 업데이트 (예: 강화 학습, 지도 미세 조정) 나 프롬프트 기반 엔지니어링 (예: 인-컨텍스트 학습) 에 의존합니다. 가중치 기반 방법은 계산 비용이 많이 들고 느린 반면, 프롬프트 기반 방법은 취약하고 제어하기 어렵습니다.

활성화 조정 (Activation Steering, AS) 은 내부 뉴런 활성화에 조향 벡터를 주입함으로써 경량화된 추론 시간 대안을 제공합니다. 그러나 기존 AS 접근법은 상당한 확장성 및 자동화 한계에 시달립니다. 일반적으로 다음과 같은 요구사항이 필요합니다:

인간 개입: 양의 및 음의 프롬프트 쌍의 수동 구축 또는 희소 특징 (예: 희소 오토인코더를 통한) 의 노동 집약적 주석.
적응성 부재: 정적 프롬프트 쌍은 특정 모델의 고유한 약점에 적응할 수 없습니다.
실용성 부족: 수동으로 제작된 데이터에 대한 의존성은 AS 를 제한된 시나리오로 국한시켜 임의의 레이블이 지정된 데이터셋에 대한 적용을 방해합니다.

본 논문은 인간에 의존하지 않고 임의의 모델과 광범위한 레이블이 지정된 작업에 적응 가능한 AS 방법이 존재하는지 질문합니다.

방법론: Painless Activation Steering (PAS)

저자들은 프롬프트 구성, 특징 주석, 또는 인간 개입 없이 모든 레이블이 지정된 데이터셋을 조향 벡터로 변환하는 완전히 자동화된 방법군인 Painless Activation Steering (PAS) 을 소개합니다.

핵심 파이프라인

PAS 파이프라인은 다음과 같이 작동합니다:

데이터 분할: 원시 모델 ( $M$ ) 을 데이터셋의 학습 분할에 실행합니다. 작업은 모델의 성능에 기반하여 자동으로 "정답" 및 "오답" 집합으로 분할됩니다.
프롬프트 구성: 수동 프롬프팅 대신, 이 방법은 모델의 자체 출력으로부터 양의 ( $P^+$ $P^{+}$ ) 및 음의 ( $P^-$ $P^{-}$ ) 프롬프트 집합을 자동으로 구성합니다:
- PAS-Full MCQ: 정답이 $P^+$ 를 형성하고 오답이 $P^-$ 를 형성하는 전체 객관식 문제를 사용합니다.
- Introspective PAS (iPAS): 모델의 특정 약점에 맞춰 프롬프트를 조정합니다.
  - iPAS-All: 정답 작업에 대한 모델의 선택 답변을 $P^+$ 로, 오답 작업을 $P^-$ 로 사용합니다.
  - iPAS-Wrong-Only (iPASwo): 오답 작업으로 제한됩니다. $P^+$ 는 정답 (ground-truth) 을 사용하고, $P^-$ 는 모델의 오답 선택을 사용합니다. 이는 모델이 특정 오류로부터 학습하도록 강제합니다.
벡터 구성: 조향 벡터 $a^*$ 는 선택된 레이어 $\ell$ 및 대상 위치 $st $(예: 잔여 스트림) 에서$ P^+ $와$ P^-$ 간의 평균 활성화 차이로 계산됩니다.
추론: 추론 중 벡터는 모델의 활성화에 주입됩니다: $a^\ell(st) \leftarrow a^\ell(st) + \lambda \cdot a^*$ , 여기서 $\lambda$ 는 조향 강도입니다.

주요 기술적 선택

자동화: 데이터 분할부터 벡터 추출까지 전체 프로세스가 자동화되어 외부 LM 또는 인간 주석가의 필요성을 제거합니다.
하이퍼파라미터: 검증 분할에서 최적의 개입 레이어와 조향 강도를 탐색합니다.
기본 권장 사항: 저자들은 트랜스포머의 중간 레이어(예: 32 레이어 모델의 14 레이어) 에 벡터를 주입하고 잔여 스트림을 대상으로 사용하는 것을 권장합니다. 중간 정도의 조향 강도 ( $\lambda \approx 1$ ) 가 최적인 것으로 나타났습니다.

주요 기여

완전히 자동화된 파이프라인: PAS 는 조향 벡터 구축을 위한 인간 - 루프 (human-in-the-loop) 요구사항을 제거하여 AS 를 모든 레이블이 지정된 데이터셋으로 확장 가능하게 만듭니다.
내성적 변형 (Introspective Variants): 특히 iPASwo 를 포함한 iPAS 의 도입은 추론 및 비전 분야의 오류 기반 학습과 유사하게 모델의 자체 오류를 활용하여 조향 벡터를 구축합니다.
체계적 특성화: 이 논문은 세 가지 오픈 가중치 모델 (Llama3.1-8B-Instruct, DeepSeek-R1-Distill-8B, Nous-Hermes-2) 과 18 가지 다양한 작업에 걸쳐 AS 에 대한 포괄적인 평가를 제공합니다.

실험 결과

1. 행동 대 지능 작업에서의 효과성

행동 작업: PAS 는 편향 (10 개 하위 작업), 도덕성 (3 개 작업), 정렬 (2 개 작업) 을 포함한 행동 지향적 작업에서 성능을 신뢰성 있게 향상시킵니다.
- 향상: 내성적 변형 (iPAS) 이 가장 강력한 효과를 발휘하여 편향에서 10.1%, 도덕성에서 5.2%, 정렬에서 34.8% 의 정확도 향상을 보였습니다.
- 비교: PAS 변형들은 일반적으로 대조적 활성화 추가 (CAA) 기준선보다 우수한 성능을 보였습니다.
지능 작업: PAS 는 지식과 추론이 테스트되는 지능 지향적 작업 (OpenBookQA, ARC Challenge, LSAT) 에서는 거의 또는 전혀 이점을 제공하지 않습니다. 일부 경우 향상은 미미하거나 모델 간에 일관성이 없었습니다.
- 결론: PAS 는 행동 학습 후 조정에 효과적이지만, 추론 집약적 작업에 대한 가중치 기반 학습의 대체재는 아닙니다.

2. 견고성과 파괴적 망각

망각: PAS 는 일반적으로 파괴적 망각을 피합니다. 대부분의 작업에서 제어 차원 (MMLU 를 통해 측정) 의 성능 저하는 미미했습니다.
예외: Sycophancy 및 TruthfulQA 작업에서 상당한 하락이 관찰되었으나, 추가 분석 결과 이는 과도하게 높은 조향 강도에 기인한 것으로 밝혀졌습니다. 강도를 중간 범위 (0–5) 로 제한했을 때 파괴적 효과가 크게 감소했습니다.

3. ICL 및 SFT 와의 상호 보완성

ICL: PAS 는 인-컨텍스트 학습 (ICL) 을 보완합니다. PAS 단독이 ICL 보다 일관되게 우월하지는 않지만, ICL 모델 위에 PAS 를 적용하면 추가적인 이득을 얻습니다 (예: 정렬에서 +16.1%~+18.1%).
SFT: TruthfulQA 벤치마크에서 PAS 는 단독 지도 미세 조정 (SFT) 보다 우수한 성능을 보였습니다. 특히, 베이스 모델에 PAS 를 적용한 결과는 SFT 와 PAS 를 모두 적용한 결과와 통계적으로 구별되지 않는 성능을 달성했는데, 이는 PAS 가 적용되면 이 특정 작업에 대해 SFT 가 추가적인 이점을 제공하지 않음을 시사합니다.

4. 효율성과 저장

속도: 전체 PAS 파이프라인은 약 100 초 내에 완료되는 반면, RL 은 수 시간에서 수 일이 소요됩니다.
저장: 조향 벡터는 학습 후 모델 가중치보다 최소 5,000 배 더 저장 효율적입니다 (예: 7B 모델 어댑터의 경우 <10kB 대 ~50MB).

중요성과 주장

이 논문은 PAS 를 실용적이고 인간에 의존하지 않으며 자동화 친화적인 학습 후 조정 레시피로 위치시킵니다. 그 중요성은 다음과 같습니다:

통제의 민주화: 비지능 지향적 개인화 및 맞춤화를 위한 활성화 조정을 접근 가능하게 하여 고비용 계산이나 수동 엔지니어링을 요구하지 않습니다.
경계 정의: AS 가 성공하는 영역 (행동 정렬, 편향 감소) 과 실패하는 영역 (추론, 사실적 지식) 을 명시적으로 문서화하여 미래 연구를 비생산적인 방향에서 벗어나게 합니다.
모듈식 적응: 가중치를 영구적으로 변경하지 않고 특정 행동으로 모델을 조향할 수 있는 경량 온-디맨드 메커니즘을 제공하여, 사용자가 사례별 적응을 위해 여러 조향 벡터를 저장하고 전환할 수 있게 합니다.

저자들은 PAS 를 모든 학습 후 방법의 대체재로 보지 않고, 특히 행동 정렬 및 안전과 관련된 작업을 위한 빠르고 유연하며 모듈식 LM 제어에 대한 유망한 기반으로 봅니다.

Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models