Controllable and explainable personality sliders for LLMs at inference time

이 논문은 추론 시 모델 파라미터를 업데이트하지 않고도 Sequential Adaptive Steering(SAS) 기법을 통해 여러 성격 요소를 동시에 제어하고 설명 가능한 다차원 성격 프로파일을 생성할 수 있는 모듈형 프레임워크를 제안합니다.

Florian Hoppe, David Khachaturov, Robert Mullins, Mark Huasong Meng

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "매번 새로운 옷을 만들어야 하는 고생"

지금까지 AI 에 특정 성격 (예: "친절하고 외향적인 상담사"나 "차분하고 논리적인 변호사") 을 부여하려면, 매번 AI 를 처음부터 다시 훈련시켜야 했습니다.

  • 비유: 만약 당신이 오늘 '친절한 선생님'이 되고 싶다면 AI 를 훈련시키고, 내일 '냉철한 검사'가 되고 싶다면 새로운 AI 모델 하나를 더 만들어야 했습니다.
  • 문제점: 이렇게 하면 컴퓨터 비용이 너무 많이 들고, "친절하면서도 논리적인" AI 를 만들려면 두 가지 성격을 섞어서 다시 훈련시켜야 하는 등 복잡하고 비효율적입니다.

2. 기존 해결책의 한계: "여러 개의 나침반을 동시에 돌리면 엉망이 됨"

연구자들은 AI 를 다시 훈련하지 않고, 내부 신호 (활성화) 에 작은 조정 (Steering) 을 가하는 방법을 시도했습니다. 하지만 이 방법에는 치명적인 문제가 있었습니다.

  • 비유: AI 의 머릿속을 거대한 방이라고 상상해 보세요.
    • '외향성'을 높이려면 방의 한 구석에 초록색 나침반을 꽂습니다.
    • '친절함'을 높이려면 파란색 나침반을 꽂습니다.
    • 문제: 이 나침반들을 따로따로 꽂으면 잘 작동하지만, 둘 다 동시에 꽂으면 나침반들이 서로 간섭을 일으켜 방 전체가 엉망이 됩니다. AI 가 말을 더듬거나, 성격을 잃어버리고 엉뚱한 소리를 하게 되는 거죠.

3. 이 논문의 해결책: "순차적 적응형 조종 (SAS)"

이 논문이 제안한 **SAS(Sequential Adaptive Steering)**는 이 문제를 완벽하게 해결합니다. 핵심은 **"이전 조정이 된 상태에서 다음 조정을 배운다"**는 점입니다.

  • 비유: 춤추는 파트너
    • 기존 방식: 두 파트너가 서로 아무 말 없이 각자 춤을 추다가 합쳐지면 발을 밟고 넘어집니다. (간섭 발생)
    • 이 논문의 방식 (SAS):
      1. 먼저 '외향성' 파트너가 춤을 추며 리듬을 잡습니다.
      2. 이제 '친절함' 파트너는 이미 리듬이 바뀐 상태를 보고 춤을 배웁니다.
      3. 그 결과, 두 파트너는 서로 발을 밟지 않고 하모니를 이루며 춤을 춥니다.

이 기술 덕분에 사용자는 단순히 슬라이더 (조절 막대) 를 움직이기만 하면 됩니다.

  • "외향성" 슬라이더를 올리고, "친절함" 슬라이더를 내리면, AI 는 순간적으로 "외향적이지만 약간 까다로운 성격"을 갖춘 새로운 인격으로 변합니다.

4. 이 기술의 핵심 장점

  1. 즉시성 (Real-time): AI 를 다시 훈련할 필요 없이, 대화하는 도중에도 성격을 1 초 만에 바꿀 수 있습니다.
  2. 정밀한 제어 (Precision): "약간 외향적이고, 아주 친절하며, 약간 신경질적인"처럼 복잡하고 미세한 성격 조합도 가능합니다.
  3. 안정성: 성격을 바꿔도 AI 가 말을 못 하거나 (망가짐) 엉뚱한 소리를 하는 것을 막아줍니다.

5. 결론: AI 의 성격을 나만의 취향대로 커스터마이징

이 논문은 **"AI 의 성격은 고정된 것이 아니라, 우리가 원하는 대로 실시간으로 조절할 수 있는 레고 블록 같다"**는 것을 증명했습니다.

앞으로 우리는 AI 에게 "오늘은 좀 더 따뜻하고 유머러스하게 말해줘"라고 말하면, AI 는 즉시 그 성격으로 변신하여 대화할 수 있게 될 것입니다. 이는 AI 를 더 자연스럽고 인간 친화적으로 만드는 중요한 한 걸음입니다.