Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

이 논문은 과도한 조향으로 인한 품질 저하를 방지하기 위해 가중치 조정과 가능성 기반 디코딩 루프를 결합하여 동적으로 조향 강도를 조절하는 새로운 방법인 DIRECTER 를 제안함으로써 대규모 언어 모델의 지시 따르기 능력을 향상시킵니다.

Minjae Kang, Jaehyung Kim

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DIRECTER: AI 의 '지시'를 잘 듣게 만드는 똑똑한 조종사

이 논문은 최근 큰 인기를 끌고 있는 '거대 언어 모델 (LLM, AI)'이 사용자의 복잡한 지시를 잘 따르지 못하거나, 오히려 지시를 너무 맹목적으로 따르다가 엉뚱한 답변을 내놓는 문제를 해결한 새로운 방법, DIRECTER를 소개합니다.

이 기술을 쉽게 이해하기 위해 비행기 조종사항공 관제탑의 비유를 들어보겠습니다.


1. 문제: AI 는 왜 지시를 잘 안 듣거나, 너무 잘 들어서 망칠까?

기존의 AI 는 사용자의 지시 (예: "문장 끝에 마침표를 쓰지 마세요") 를 들으면, 그 지시를 따르려고 안간힘을 씁니다. 하지만 여기서 두 가지 문제가 발생합니다.

  • 지시 무시 (Instruction Ignoring): AI 가 원래 습관대로 "안녕하세요."라고 말하려다, 지시를 잊어버리고 마침표를 찍어버리는 경우입니다.
  • 지시 과잉 (Oversteering): 반대로 지시를 너무 맹목적으로 따릅니다. "문장에 쉼표 (,) 를 쓰지 마세요"라고 하면, AI 가 쉼표 대신에 문법적으로 어색한 문장을 만들거나, 심지어 "나는 쉼표를 쓰지 않겠다"라고 반복해서 말하며 본래의 질문 (여행 일정 짜기) 을 망쳐버리는 경우입니다.

기존 기술들은 이 균형을 맞추기 위해 "지시를 얼마나 강하게 강조할까?"라는 설정값을 수동으로 조절해야 했습니다. 하지만 이는 마치 조종사가 비행 중에도 조종간을 고정해두고 날리는 것과 같습니다. 상황에 따라 강하게 당겨야 할 때도 있고, 살짝만 건드려야 할 때도 있는데, 고정된 설정으로는 불가능합니다.

2. 해결책: DIRECTER (다이나믹 리젝션 스티어링)

이 논문에서 제안한 DIRECTER는 **"상황에 따라 실시간으로 조종력을 조절하는 똑똑한 자동 조종 장치"**입니다.

핵심 비유: "잠시 멈추고 확인하기" (Plausibility-Guided Decoding)

DIRECTER 는 AI 가 한 마디를 내뱉기 직전, 다음과 같은 과정을 거칩니다.

  1. 원래 생각 (Raw Distribution): AI 가 지시 없이 자연스럽게 생각한 답변을 먼저 봅니다.
  2. 지시 적용 (Steered Output): 사용자의 지시 (예: "쉼표 금지") 를 강력하게 적용해서 AI 가 생각한 답변을 바꿉니다.
  3. 현실성 체크 (Plausibility Check): "이제 바뀐 답변이 너무 어색하지는 않은가?"를 확인합니다.
    • 만약 너무 어색하다면 (Implausible): "아, 지시를 너무 강하게 적용했구나!"라고 판단하고, 지시 적용 강도를 약하게 줄입니다. (예: 모든 층의 신경망을 건드리지 않고, 가장 중요한 층만 살짝 건드림)
    • 만약 자연스럽다면 (Plausible): "좋아, 이 정도면 지시도 지키고 문장도 자연스러우네!"라고 판단하고, 그 답변을 최종 출력합니다.

이 과정은 AI 가 한 마디를 말할 때마다 수백 번 반복되어, 매 순간 가장 적절한 강도로 지시를 따르도록 만듭니다.

3. DIRECTER 의 두 가지 비밀 무기

이 시스템이 어떻게 그렇게 똑똑하게 작동할까요? 두 가지 핵심 기술이 있습니다.

① "어떤 층을 건드릴지 미리 정하기" (Layer Ranking)

AI 는 여러 개의 층 (Layer) 으로 이루어진 거대한 건물과 같습니다. 모든 층을 다 건드리면 건물이 무너질 수 있습니다. DIRECTER 는 실험을 통해 "어떤 층을 건드리면 지시 효과가 가장 잘 전달되는지" 미리 분석해 둡니다.

  • 비유: 건물의 엘리베이터를 고칠 때, 모든 층의 전선을 다 끊는 게 아니라, 가장 중요한 메인 전선만 건드리는 것과 같습니다. 이렇게 하면 효율적이고 정확합니다.

② "불필요한 시도는 건너뛰기" (Gating Mechanism)

매번 지시를 적용해서 확인하는 건 시간이 걸립니다. DIRECTER 는 AI 가 이미 매우 확신 있는 답변을 내놓을 때는 (예: "1+1=2"라고 확신할 때) 굳이 지시를 적용해볼 필요 없이 원래 답변을 그대로 내보냅니다.

  • 비유: 관제탑이 "비행기 A 는 지금 정상 비행 중이야"라고 말하면, 조종사는 굳이 "비행기 A, 지금 방향을 틀어봐!"라고 명령하지 않습니다. 이미 잘 가고 있으면 간섭하지 않는 것이 효율적이기 때문입니다.

4. 왜 이것이 중요한가요? (결과)

이 방법을 적용한 결과, AI 는 다음과 같은 놀라운 변화를 보였습니다.

  • 정확도 향상: 복잡한 지시 (예: "쉼표 금지", "특정 형식 준수") 를 따르는 정확도가 기존 방법보다 6.5% 이상 높아졌습니다.
  • 품질 유지: 지시를 잘 따르면서도, 문장의 자연스러움이나 논리적 정확함은 떨어지지 않았습니다. (기존 방법들은 지시를 따르다 보니 문장이 엉망이 되는 경우가 많았습니다.)
  • 빠른 속도: 추가적인 계산 비용이 거의 들지 않아, AI 가 느려지지 않습니다.

5. 요약

DIRECTER는 AI 에게 "지시를 무조건 강하게 따르라"고 외치는 것이 아니라, **"지시를 따르되, 문장이 이상해지면 즉시 강도를 줄여라"**라고 가르치는 현명한 조종사입니다.

이 기술은 AI 가 사용자의 복잡한 요구사항을 정확히 이해하면서도, 여전히 자연스럽고 유용한 답변을 내놓을 수 있게 도와줍니다. 앞으로 우리가 AI 와 대화할 때, 더 이상 "지시 무시"나 "엉뚱한 답변"에 실망하지 않아도 될 것입니다.