Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric

이 논문은 다차원 인간 선호도를 단일 점수로 축소하는 기존 보상 모델의 한계를 극복하고, 오픈 엔디드 정렬을 위한 견고한 원칙 일반화를 실현하기 위해, 적응형 메타-루브릭과 검증 가능한 루브릭을 결합하여 명시적 추론 과정과 외부 기준별 비교를 통해 강화학습을 확장하는 '오픈 루브릭 시스템 (OpenRS)'을 제안합니다.

Ruipeng Jia, Yunyi Yang, Yuxin Wu, Yongbo Gai, Siyuan Tao, Mengyu Zhou, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚫 기존 방식의 문제: "점수표"의 함정

기존의 AI 훈련 방식은 **단 하나의 점수 (Scalar Reward)**에 의존합니다. 마치 시험을 볼 때, 채점관이 복잡한 답안을 보고 "85 점"이라는 숫자만 적어주는 것과 같습니다.

  • 문제점 1 (블랙박스): 왜 85 점인지, 어떤 부분이 좋았는지, 어떤 부분이 나빴는지 알 수 없습니다. AI 는 "점수를 잘 받는 말"만 배우게 되어, 실제로는 엉뚱한 짓을 하더라도 점수를 잘 받는 **속임수 (Reward Hacking)**를 쓰게 됩니다.
  • 문제점 2 (고정관념): 채점관이 미리 정해진 기준만 보고 채점하므로, 상황이나 질문의 뉘앙스에 따라 유연하게 판단하지 못합니다.

비유: 마치 요리 대회에서 심사위원이 "이 요리는 80 점입니다"라고만 말하고, "소금이 너무 짜서 10 점 감점, 하지만 모양이 예뻐서 5 점 가점"이라고 설명해주지 않는 것과 같습니다. 요리사 (AI) 는 다음에 무엇을 고쳐야 할지 모르고, 그저 "점수를 잘 받는 요리"를 만들기 위해 소금만 더 넣거나 장식을 과도하게 하는 식이 될 수 있습니다.


✨ 새로운 해결책: "OpenRS" (열린 평가 기준 시스템)

이 논문이 제안하는 OpenRS는 점수 하나를 주는 대신, **명확한 평가 기준 (Rubric)**을 세우고 AI 와 AI 의 답변을 직접 비교하게 합니다.

1. 핵심 아이디어: "점수"가 아니라 "논리"로 가르치기

AI 에게 점수를 주는 것이 아니라, **"왜 이 답변이 더 좋은가?"**에 대한 논리적 이유를 제공해 줍니다.

  • 적응형 평가 기준 (Adaptive Rubric): 모든 질문에 같은 기준을 적용하는 게 아니라, 두 개의 답변을 비교해 보니 어떤 점이 다른지를 먼저 파악한 뒤, 그 차이점에 맞는 평가 기준을 그 자리에서 만들어냅니다.
    • 예시: 두 답변 중 하나는 "사실 오류"가 있고, 다른 하나는 "감정 표현"이 부족하다면, 평가 기준은 "사실 확인"과 "공감 능력"에 집중하도록 바뀝니다.
  • 쌍별 비교 (Pairwise Comparison): 한 답변을 점수로 매기는 대신, A 와 B 를 직접 비교하여 "A 가 B 보다 이 부분에서 더 낫다"라고 판단하게 합니다.

비유: 축구 경기를 생각해보세요.

  • 기존 방식: 심판이 선수 A 에게 "8 점", 선수 B 에게 "7 점"을 줍니다. 왜 8 점인지 모릅니다.
  • OpenRS 방식: 심판은 "A 가 B 보다 드리블이 더 좋았고, 패스 정확도도 높았다"라고 구체적인 이유를 말해줍니다. 선수 (AI) 는 "아, 드리블과 패스를 더 연습해야겠구나!"라고 명확하게 배웁니다.

2. 두 가지 강력한 무기

OpenRS 는 두 가지 방식을 섞어서 사용합니다.

  1. 주관적 평가 (Pairwise Adaptive Rubric):
    • 창의성, 유머, 공감 능력처럼 숫자로 재기 힘든 부분.
    • 방법: 두 답변의 **차이점 (Difference)**을 찾아내고, 그 차이를 기준으로 평가합니다. "이 답변은 사용자의 감정을 더 잘 이해했어" 같은 구체적인 피드백을 줍니다.
  2. 객관적 검증 (Pointwise Verifiable Rubric):
    • 수학 문제, 코드 작성, 형식 준수 등 정답이 명확한 부분.
    • 방법: "정답이 맞나요?", "코드가 실행되나요?"처럼 자동으로 확인 가능한 기준을 적용합니다. 여기서 틀리면 바로 감점 (Veto) 을 줍니다.

3. "헌법" 같은 원칙 (Meta-Rubric)

이 시스템은 AI 가 임의로 기준을 정하는 게 아니라, **사람이 미리 정해둔 '원칙 (헌법)'**을 따릅니다.

  • 자동 진화: 이 원칙들이 잘 작동하는지 확인하고, 더 좋은 원칙을 찾아내기 위해 AI 가 스스로 원칙을 수정하고 발전시킵니다.
  • 인간 개입: 특정 분야 (예: 의료, 법률) 에서는 전문가가 원칙을 직접 수정할 수 있어, AI 가 위험한 짓을 하지 않도록 막아줍니다.

🚀 왜 이것이 중요한가요? (기대 효과)

  1. 속임수 방지: AI 가 "점수만 잘 받는 말"을 하지 않고, 진짜 좋은 답변을 만들도록 유도합니다.
  2. 투명성: 왜 AI 가 그렇게 판단했는지, 어떤 기준으로 평가했는지 모두 볼 수 있습니다.
  3. 더 똑똑한 AI: 복잡한 문제나 감성적인 대화에서도 유연하게 대응할 수 있게 됩니다.
  4. 실제 성과: 실험 결과, 기존 방식보다 훨씬 더 인간이 선호하는 답변을 만들어냈으며, AI 가 스스로 학습하는 과정에서도 더 안정적으로 발전했습니다.

최종 비유:
기존 방식은 AI 를 암기형 학생으로 만들었습니다. "정답은 85 점이다"라고 외우게 했죠.
OpenRS 는 AI 를 비판적 사고를 하는 학생으로 바꿉니다. "이 답이 좋은 이유는 A, B, C 때문이야. 너는 D 부분을 더 보완하면 더 나아질 거야"라고 구체적인 코칭을 해주는 것입니다.

이 시스템은 AI 가 단순히 "점수 잘 받는 기계"가 아니라, 진짜 인간처럼 생각하고 판단하는 도우미로 성장하는 데 중요한 디딤돌이 될 것입니다.