Concept Heterogeneity-aware Representation Steering

이 논문은 대규모 언어 모델의 내부 표현이 이질적일 수 있다는 점을 고려하여, 최적 수송 (Optimal Transport) 이론을 기반으로 클러스터 수준의 이동 벡터를 입력에 따라 가중 평균하는 'CHaRS'라는 새로운 표현 제어 방법을 제안하고, 이를 통해 기존 전역적 방향 기반 제어보다 더 효과적인 행동 제어를 가능하게 함을 보여줍니다.

Laziz U. Abdullaev, Noelle Y. L. Wong, Ryan T. Z. Lee, Shiqi Jiang, Khoi N. M. Nguyen, Tan M. Nguyen

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방법: "모두에게 똑같은 나침반을 주는 것"

기존의 기술 (Global Steering) 은 언어 모델의 행동을 바꿀 때, **'한 가지 방향'**만 정해서 모든 상황에 적용했습니다.

  • 비유: imagine you are a tour guide in a huge, complex library. You want to guide visitors to the "Harmless" (안전한) section.
    • 기존 방법은 "안전한 책이 있는 곳으로 가려면, 북쪽으로만 걸어라"라고 모든 사람에게 똑같은 지시를 내립니다.
    • 문제점: 도서관은 매우 복잡합니다. 어떤 구역은 북쪽으로 가면 안전하지만, 다른 구역은 북쪽으로 가면 오히려 위험한 책 (해로운 내용) 에 닿을 수도 있습니다. 또한, 방문객들이 서 있는 위치 (맥락) 가 다르면 같은 '북쪽'이 의미하는 바가 달라질 수 있습니다.
    • 결과: 모든 사람에게 똑같은 지시를 내리면, 어떤 사람은 안전해지지만 다른 사람은 여전히 위험한 곳에 머물거나, 오히려 엉뚱한 곳으로 가게 됩니다. 이를 **'균질성 (Homogeneity) 가정'**이라고 하는데, 현실은 그렇게 단순하지 않습니다.

2. 새로운 방법 (CHaRS): "맞춤형 지도와 스마트 안내"

이 논문은 "아, 도서관의 각 구역은 서로 다른 특징을 가지고 있구나!"라고 깨닫고, **최적 수송 (Optimal Transport)**이라는 수학적 개념을 이용해 문제를 해결했습니다.

  • 핵심 아이디어:

    • 언어 모델의 내부 지식 공간은 하나의 큰 덩어리가 아니라, 여러 개의 **'작은 군집 (Cluster)'**으로 나뉘어 있습니다. (예: '거짓말'이라는 개념도, 농담으로 하는 거짓말, 악의적인 사기, 실수 등 여러 형태로 존재합니다.)
    • CHaRS 는 이 작은 군집들을 각각 찾아내고, '출발지 (해로운 말)'의 각 군집'목적지 (안전한 말)'의 해당 군집으로 가장 자연스럽게 연결하는 맞춤형 지도를 그립니다.
  • 비유 (여행지 안내):

    • 이제 가이드는 "북쪽으로 가라"라고 말하지 않습니다.
    • 대신, "당신이 지금 A 구역에 있다면 동쪽으로, B 구역에 있다면 서쪽으로, C 구역에 있다면 남쪽으로 이동하세요"라고 상황에 따라 다른 지시를 내립니다.
    • 그리고 이 지시들은 부드럽게 연결되어 있어서, 방문객이 한 구역에서 다른 구역으로 넘어갈 때 갑자기 방향이 뚝 끊기지 않고 자연스럽게 이동합니다.

3. CHaRS 가 어떻게 작동하나요? (3 단계)

  1. 군집화 (Clustering): 먼저, 해로운 말과 안전한 말의 데이터들을 분석하여 비슷한 것끼리 묶어 '작은 그룹'을 만듭니다. (예: '사기성 질문' 그룹, '폭력성 질문' 그룹 등)
  2. 매칭 (Optimal Transport): 각 '해로운 그룹'을 가장 잘 대응할 수 있는 '안전한 그룹'을 찾아 연결합니다. 마치 퍼즐 조각을 맞춰가며 가장 자연스러운 경로를 찾는 것과 같습니다.
  3. 부드러운 이동 (Steering): 사용자가 질문을 입력하면, 모델은 그 질문이 어느 '그룹'에 가깝게 속하는지 보고, 해당 그룹에 맞는 맞춤형 이동 방향을 적용합니다.

4. 왜 이것이 중요한가요? (실제 효과)

이 논문은 이 방법이 실제로 얼마나 좋은지 여러 실험으로 증명했습니다.

  • 해킹 방지 (Jailbreaking): 악의적인 사용자가 모델을 속여서 유해한 내용을 출력하게 하려는 시도를 막을 때, 기존 방법보다 훨씬 효과적으로 차단했습니다. (기존 방법은 뚫리기 쉬웠지만, CHaRS 는 상황마다 다른 방어 태세를 취해서 뚫기 어렵게 만들었습니다.)
  • 독성 제거 (Toxicity Mitigation): 모델이 모욕적이거나 독이 되는 말을 할 때, 이를 부드럽게 고쳐주면서도 모델의 일반적인 대화 능력은 떨어뜨리지 않았습니다.
  • 이미지 스타일 조절: 텍스트뿐만 아니라, 이미지 생성 모델에서도 '사이버펑크'나 '스케치' 같은 스타일을 더 정확하게 적용할 수 있었습니다.

5. 요약: 한 마디로 정리하면?

기존의 방법은 **"모두에게 똑같은 나침반을 주고 북쪽으로 가라"**고 했다면,
이 새로운 방법 (CHaRS) 은 **"당신이 어디에 있느냐에 따라, 가장 안전하고 자연스러운 길을 찾아주는 스마트한 GPS"**를 제공한다는 것입니다.

이는 인공지능이 더 유연하고, 상황에 민감하며, 안전하게 행동하도록 돕는 중요한 기술적 발전입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →