How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

이 논문은 언어적 특징, 감정, 성격이라는 세 가지 도메인과 세 가지 지정 수준 (L1~L3) 으로 구성된 계층적 벤치마크 'SteerEval'을 제안하여 대규모 언어 모델의 행동 제어 가능성을 체계적으로 평가하고, 세밀한 수준일수록 제어 성능이 저하된다는 사실을 규명합니다.

Ziwen Xu, Kewei Xu, Haoming Xu, Haiwen Hong, Longtao Huang, Hui Xue, Ningyu Zhang, Yongliang Shen, Guozhou Zheng, Huajun Chen, Shumin Deng

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇이나 AI 비서) 을 우리가 원하는 대로 얼마나 잘 조종할 수 있을까?"**라는 질문에서 시작합니다.

AI 가 점점 똑똑해지면서 교육, 의료, 의사결정 등 중요한 곳에 쓰이지만, 때로는 AI 가 의도하지 않은 말을 하거나 성격을 갑자기 바꾸는 등 예측 불가능한 행동을 할 수 있어 위험할 수 있습니다. 이 논문은 바로 그 AI 의 행동을 얼마나 정밀하게 통제할 수 있는지를 측정하는 새로운 도구인 **'SteerEval(스티어-에벌)'**을 소개합니다.

이 내용을 쉽게 이해하기 위해 **'마술사 (AI)'와 '지휘자 (사용자)'**의 비유를 들어 설명해 드리겠습니다.


🎩 1. 핵심 아이디어: "원하는 대로 마술을 부리게 하려면?"

지금까지 AI 를 조종하는 연구들은 대략적인 방향만 잡았습니다. 예를 들어 "기분 좋은 말을 해줘"라고 하면 AI 는 기분이 좋은 말을 합니다. 하지만 **"기분 좋은 말을 하되, '축하'라는 단어를 꼭 3 번 쓰고, 문장은 짧게 끊어서, 마지막에 느낌표를 붙여줘"**라고 구체적으로 지시하면 AI 는 종종 망칩니다.

이 논문은 AI 의 행동을 통제하는 능력을 **3 단계의 정밀도 (Granularity)**로 나누어 측정합니다.

📏 3 단계 통제 수준 (조작의 정밀도)

  1. 1 단계 (L1): "무엇을 말할지" (큰 방향)

    • 비유: 지휘자가 오케스트라에게 "행진곡을 연주해"라고 지시하는 것.
    • 내용: AI 에게 "자율적인 태도를 보여줘"라고만 말합니다. 구체적인 표현은 AI 가 알아서 합니다.
    • 결과: 대부분의 AI 는 이 정도는 잘 따라옵니다.
  2. 2 단계 (L2): "어떻게 말할지" (방식)

    • 비유: 지휘자가 "행진곡을 연주하되, 강한 드럼 소리로 리듬을 타며 연주해"라고 지시하는 것.
    • 내용: "자율적인 태도를 보여줘" + "남의 도움을 받기보다 스스로 결정한다는 뉘앙스로 말해줘"라고 구체화합니다.
    • 결과: AI 는 이때부터 조금 헷갈리기 시작합니다.
  3. 3 단계 (L3): "구체적인 단어/기호" (최종 실행)

    • 비유: 지휘자가 "행진곡을 연주하되, '자율'이라는 단어를 2 번 쓰고, 마침표 대신 느낌표 (!) 를 3 개 붙여줘"라고 지시하는 것.
    • 내용: "자율적인 태도를 보여줘" + "반드시 '자율'이라는 단어를 포함하고, 문장 끝에 느낌표를 써줘"라고 아주 구체적인 규칙을 정합니다.
    • 결과: 여기서 대부분의 AI 조종 기술이 실패합니다. AI 는 규칙을 지키느라 말의 흐름이 깨지거나, 아예 지시를 무시해버립니다.

🔍 2. 실험 결과: "조종 기술의 한계"

연구진은 다양한 AI 모델 (Gemma, Qwen, Llama 등) 과 다양한 조종 기술 (프롬프트로 지시하기, 내부 신경망 신호를 직접 조작하기 등) 을 테스트했습니다.

  • 결론 1: "조금만 구체적으로 지시하면 AI 는 무너집니다."
    • AI 는 큰 방향 (L1) 을 잡는 것은 잘하지만, 구체적인 규칙 (L2, L3) 이 들어오면 성능이 급격히 떨어집니다. 마치 "노래를 불러줘"는 잘하지만 "노래를 부르되 3 박자마다 숨을 쉬고, '사랑'이라는 단어를 꼭 넣어서 불러줘"라고 하면 노래를 망치는 것과 같습니다.
  • 결론 2: "단순한 지시 (프롬프트) 가 더 나을 때도 있습니다."
    • AI 의 내부 신호를 직접 건드리는 복잡한 기술 (Activation Steering) 은 큰 방향에서는 잘 작동하지만, 구체적인 규칙이 필요할 때는 오히려 단순한 "지시문"보다 못 할 때가 많았습니다.
  • 결론 3: "성격, 감정, 말투는 다릅니다."
    • AI 의 성격을 바꾸는 것은 비교적 쉽지만, 감정을 조절하거나 특정 문장 구조를 강제하는 것은 훨씬 어렵습니다.

💡 3. 왜 이 연구가 중요한가요?

이 논문은 단순히 "AI 가 못한다"고 비판하는 것이 아니라, "AI 를 어디까지, 어떻게 통제할 수 있는지"의 한계를 명확히 보여주는 지도를 제공했습니다.

  • 안전한 AI 만들기: AI 가 위험한 행동을 하지 않도록 막거나, 필요한 상황에서만 정확한 태도를 보이게 하려면, 우리가 AI 를 얼마나 정밀하게 조종할 수 있는지 알아야 합니다.
  • 미래의 기준: 앞으로 AI 개발자들은 이 'SteerEval'이라는 도구를 이용해, AI 가 복잡한 규칙을 얼마나 잘 따르는지 테스트해야 합니다.

🏁 요약

이 논문은 **"AI 를 조종하는 기술은 아직 초보 단계"**라고 말합니다. 우리는 AI 에게 "무엇을 할지"는 잘 지시하지만, **"정확하게 어떻게 할지"**까지 통제하는 것은 여전히 어렵습니다. 이 연구는 그 한계를 정확히 측정하는 자를 만들어, 앞으로 더 안전하고 믿을 수 있는 AI 를 만드는 발판을 마련했습니다.

한 줄 요약:

"AI 에게 "기분 좋게 말해"는 잘 시키지만, "기분 좋게 말하되 '행복'이라는 단어를 3 번 써"라고 하면 AI 는 당황합니다. 이 논문은 AI 가 어디까지 지시를 잘 따르는지 측정하는 새로운 자를 만들었습니다."