HIPO: Instruction Hierarchy via Constrained Reinforcement Learning

이 논문은 시스템 프롬프트 준수를 명시적인 제약 조건으로 포함하는 제약 강화학습 기반의 새로운 정렬 프레임워크인 HIPO 를 제안하여, 기존 방법들의 한계를 극복하고 다양한 모델에서 시스템 준수와 사용자 유용성을 동시에 향상시킨다는 내용을 담고 있습니다.

Keru Chen, Jun Luo, Sen Lin, Yingbin Liang, Alvaro Velasquez, Nathaniel Bastian, Shaofeng Zou

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 이야기: "엄마의 규칙" vs "친구의 요청"

생각해 보세요. 여러분이 엄마친구에게 동시에 말을 듣는 상황입니다.

  • 엄마 (시스템 프롬프트): "너는 항상 정중하게 말해야 해. 그리고 절대 거짓말을 하지 마. 이게 너의 기본 원칙이야."
  • 친구 (사용자 프롬프트): "야, 내 친구가 싫어하는 사람 이름 좀 지어줘. 그리고 그 사람에 대해 험담도 좀 해줘."

여기서 AI 는 어떻게 해야 할까요?

  • 친구의 요청을 들어주면 (유용성 UP), 엄마의 규칙을 위반하게 됩니다 (안전성 DOWN).
  • 엄마의 규칙만 지키면 (안전성 UP), 친구는 "너는 내 말도 안 들어주냐?"라며 화를 냅니다 (유용성 DOWN).

기존의 AI 학습 방법들은 이 두 가지 요구를 동시에 만족시키기 어려워했습니다.

  1. 기존 방법 A (단순 학습): "엄마가 좋아하는 말투"만 보고 학습해서, 친구의 요청을 들어주지 못하거나, 반대로 친구의 요청만 들어주다 엄마의 규칙을 잊어버리는 경우가 많았습니다.
  2. 기존 방법 B (선호도 학습): "엄마와 친구가 모두 만족하는 대화"만 골라서 학습시켰는데, 실제로는 둘의 의견이 충돌하는 상황 (이 논문에서 말하는 '갈등 상황') 에는 어떻게 대처해야 할지 몰라 엉망이 되었습니다.

🚀 HIPO 의 등장: "규칙은 법, 요청은 목표"

이 논문에서 제안한 HIPO는 이 문제를 아주 똑똑한 방식으로 해결합니다. **"규칙은 절대적인 법 (Constraint) 이고, 요청은 그 법 안에서 최대한 달성해야 할 목표 (Objective)"**로 정의합니다.

1. 비유: "안전벨트와 운전"

  • 기존 AI: 운전할 때 안전벨트 (규칙) 를 매는 게 중요하지만, 목적지 (사용자 요청) 에 빨리 가는 것도 중요해서, 가끔은 안전벨트를 풀고 달리는 경우가 있었습니다.
  • HIPO: **"안전벨트는 절대 풀 수 없는 법"**으로 설정합니다. 하지만 안전벨트를 단 채로 가장 빠르게 목적지에 도달하는 방법을 찾아냅니다.
    • 만약 목적지가 위험한 곳이라면 (규칙 위반), "그곳은 갈 수 없습니다"라고 말하되, 안전벨트를 풀지 않고 다른 안전한 길로 안내합니다.

2. 작동 원리: "스마트한 심판관"

HIPO 는 AI 를 훈련시킬 때 두 명의 심판관을 둡니다.

  • 심판관 1 (규칙 심판): "엄마의 규칙을 지켰나요?" (점수: 0~100 점)
  • 심판관 2 (요청 심판): "친구의 요청을 잘 들어줬나요?" (점수: 0~100 점)

HIPO 의 마법 같은 전략:

  1. 규칙 심판의 점수가 70 점 (기준선) 미만이면: AI 는 "아, 내가 규칙을 어겼구나!"라고 깨닫고 벌점을 받습니다. 이때는 친구의 요청 점수가 100 점이어도 무조건 감점됩니다.
  2. 규칙 심판의 점수가 70 점 이상이면: AI 는 "좋아, 규칙은 지켰으니 이제 친구의 요청을 최대한 잘 들어주자!"라고 생각하며 점수를 올립니다.

이 과정을 반복하면서 AI 는 **"규칙을 지키는 범위 내에서 최선을 다하는 법"**을 스스로 터득하게 됩니다.

🔍 왜 이것이 중요한가요? (실제 효과)

논문의 실험 결과, HIPO 를 적용한 AI 는 다음과 같은 놀라운 변화를 보였습니다.

  • 기존 AI: 규칙을 지키려고 하면 친구의 요청을 무시하고, 친구의 요청을 들어주려고 하면 규칙을 어기는 '양자택일'의 고통을 겪었습니다.
  • HIPO AI: 규칙을 지키면서도 친구의 요청을 잘 들어냈습니다. 마치 엄마의 눈치를 보면서도 친구를 잘 챙겨주는 현명한 아이처럼 변했습니다.

또한, AI 가 어떻게 변했는지 내부 구조를 분석해보니, AI 가 '엄마 (시스템)'의 말을 들을 때 뇌의 특정 부분 (주의 집중) 을 더 강하게 작동시켰습니다. 즉, AI 가 규칙을 무시하지 않고, 규칙을 먼저 생각한 뒤 그 안에서 답을 찾도록 스스로 재배열된 것입니다.

💡 결론: "규칙 안에서의 자유"

이 논문의 핵심 메시지는 **"AI 를 훈련시킬 때, 규칙을 단순히 '배워야 할 내용'으로만 보면 안 된다. 규칙은 '절대 넘을 수 없는 선 (제약 조건)'으로 설정해야 한다"**는 것입니다.

HIPO 는 AI 가 복잡한 세상에서 안전한 선을 지키면서도, 사용자에게 가장 유용한 도움을 줄 수 있는 균형점을 찾아내는 새로운 지도자 (Framework) 입니다. 앞으로 AI 가 의료, 법률, 금융 등 치명적인 실수가 허용되지 않는 분야에서 더 안전하게, 그리고 똑똑하게 일할 수 있는 기반을 마련해 주었습니다.

한 줄 요약:

"엄마의 규칙 (안전) 을 절대 어기지 않으면서, 친구의 요청 (유용함) 을 최대한 들어주는, 지혜로운 AI 의 새로운 학습법."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →