Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric

Each language version is independently generated for its own context, not a direct translation.

🚫 기존 방식의 문제: "점수표"의 함정

기존의 AI 훈련 방식은 **단 하나의 점수 (Scalar Reward)**에 의존합니다. 마치 시험을 볼 때, 채점관이 복잡한 답안을 보고 "85 점"이라는 숫자만 적어주는 것과 같습니다.

문제점 1 (블랙박스): 왜 85 점인지, 어떤 부분이 좋았는지, 어떤 부분이 나빴는지 알 수 없습니다. AI 는 "점수를 잘 받는 말"만 배우게 되어, 실제로는 엉뚱한 짓을 하더라도 점수를 잘 받는 **속임수 (Reward Hacking)**를 쓰게 됩니다.
문제점 2 (고정관념): 채점관이 미리 정해진 기준만 보고 채점하므로, 상황이나 질문의 뉘앙스에 따라 유연하게 판단하지 못합니다.

비유: 마치 요리 대회에서 심사위원이 "이 요리는 80 점입니다"라고만 말하고, "소금이 너무 짜서 10 점 감점, 하지만 모양이 예뻐서 5 점 가점"이라고 설명해주지 않는 것과 같습니다. 요리사 (AI) 는 다음에 무엇을 고쳐야 할지 모르고, 그저 "점수를 잘 받는 요리"를 만들기 위해 소금만 더 넣거나 장식을 과도하게 하는 식이 될 수 있습니다.

✨ 새로운 해결책: "OpenRS" (열린 평가 기준 시스템)

이 논문이 제안하는 OpenRS는 점수 하나를 주는 대신, **명확한 평가 기준 (Rubric)**을 세우고 AI 와 AI 의 답변을 직접 비교하게 합니다.

1. 핵심 아이디어: "점수"가 아니라 "논리"로 가르치기

AI 에게 점수를 주는 것이 아니라, **"왜 이 답변이 더 좋은가?"**에 대한 논리적 이유를 제공해 줍니다.

적응형 평가 기준 (Adaptive Rubric): 모든 질문에 같은 기준을 적용하는 게 아니라, 두 개의 답변을 비교해 보니 어떤 점이 다른지를 먼저 파악한 뒤, 그 차이점에 맞는 평가 기준을 그 자리에서 만들어냅니다.
- 예시: 두 답변 중 하나는 "사실 오류"가 있고, 다른 하나는 "감정 표현"이 부족하다면, 평가 기준은 "사실 확인"과 "공감 능력"에 집중하도록 바뀝니다.
쌍별 비교 (Pairwise Comparison): 한 답변을 점수로 매기는 대신, A 와 B 를 직접 비교하여 "A 가 B 보다 이 부분에서 더 낫다"라고 판단하게 합니다.

비유: 축구 경기를 생각해보세요.

기존 방식: 심판이 선수 A 에게 "8 점", 선수 B 에게 "7 점"을 줍니다. 왜 8 점인지 모릅니다.

OpenRS 방식: 심판은 "A 가 B 보다 드리블이 더 좋았고, 패스 정확도도 높았다"라고 구체적인 이유를 말해줍니다. 선수 (AI) 는 "아, 드리블과 패스를 더 연습해야겠구나!"라고 명확하게 배웁니다.

2. 두 가지 강력한 무기

OpenRS 는 두 가지 방식을 섞어서 사용합니다.

주관적 평가 (Pairwise Adaptive Rubric):
- 창의성, 유머, 공감 능력처럼 숫자로 재기 힘든 부분.
- 방법: 두 답변의 **차이점 (Difference)**을 찾아내고, 그 차이를 기준으로 평가합니다. "이 답변은 사용자의 감정을 더 잘 이해했어" 같은 구체적인 피드백을 줍니다.
객관적 검증 (Pointwise Verifiable Rubric):
- 수학 문제, 코드 작성, 형식 준수 등 정답이 명확한 부분.
- 방법: "정답이 맞나요?", "코드가 실행되나요?"처럼 자동으로 확인 가능한 기준을 적용합니다. 여기서 틀리면 바로 감점 (Veto) 을 줍니다.

3. "헌법" 같은 원칙 (Meta-Rubric)

이 시스템은 AI 가 임의로 기준을 정하는 게 아니라, **사람이 미리 정해둔 '원칙 (헌법)'**을 따릅니다.

자동 진화: 이 원칙들이 잘 작동하는지 확인하고, 더 좋은 원칙을 찾아내기 위해 AI 가 스스로 원칙을 수정하고 발전시킵니다.
인간 개입: 특정 분야 (예: 의료, 법률) 에서는 전문가가 원칙을 직접 수정할 수 있어, AI 가 위험한 짓을 하지 않도록 막아줍니다.

🚀 왜 이것이 중요한가요? (기대 효과)

속임수 방지: AI 가 "점수만 잘 받는 말"을 하지 않고, 진짜 좋은 답변을 만들도록 유도합니다.
투명성: 왜 AI 가 그렇게 판단했는지, 어떤 기준으로 평가했는지 모두 볼 수 있습니다.
더 똑똑한 AI: 복잡한 문제나 감성적인 대화에서도 유연하게 대응할 수 있게 됩니다.
실제 성과: 실험 결과, 기존 방식보다 훨씬 더 인간이 선호하는 답변을 만들어냈으며, AI 가 스스로 학습하는 과정에서도 더 안정적으로 발전했습니다.

최종 비유:
기존 방식은 AI 를 암기형 학생으로 만들었습니다. "정답은 85 점이다"라고 외우게 했죠.
OpenRS 는 AI 를 비판적 사고를 하는 학생으로 바꿉니다. "이 답이 좋은 이유는 A, B, C 때문이야. 너는 D 부분을 더 보완하면 더 나아질 거야"라고 구체적인 코칭을 해주는 것입니다.

이 시스템은 AI 가 단순히 "점수 잘 받는 기계"가 아니라, 진짜 인간처럼 생각하고 판단하는 도우미로 성장하는 데 중요한 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 강화학습 (RLHF) 파이프라인은 인간의 선호도를 단일 스칼라 점수 (Scalar Reward) 로 압축하는 스칼라 보상 모델 (Scalar Reward Model, SRM) 에 의존합니다. 이는 다음과 같은 근본적인 한계를 가집니다:

정보 병목 현상 (Information Bottleneck): 다차원적인 인간 선호도를 하나의 불투명한 점수로 단순화하여, 모델이 실제 품질 향상보다는 학습된 단서 (Shortcuts) 를 이용하는 보상 해킹 (Reward Hacking) 을 유발합니다.
취약한 일반화: 검증 가능한 작업 (수학, 코딩) 이 아닌 개방형 (Open-ended) 작업에서, 학습된 보상 모델은 데이터셋 특유의 편향을 학습하여 분포 외 (OOD) 상황이나 새로운 도메인에서 성능이 급격히 저하됩니다.
점수화 한계: 기존 평가 기준 (Rubric) 기반 방법론들도 대부분 '점별 (Pointwise)' 평가 후 가중치 합산으로 스칼라 점수를 도출하는데, 이는 개방형 작업에서의 판별력 (Discriminability) 한계와 보상 게임화 문제를 해결하지 못합니다.

2. 방법론 (Methodology)

저자들은 보상 신호를 학습된 함수가 아닌 명시적인 추론 과정 (Explicit Reasoning Process) 으로 재정의하고, 이를 구현하기 위해 Open Rubric System (OpenRS) 을 제안합니다.

A. 핵심 구성 요소

Pairwise Adaptive Meta-Rubrics (PAMR):
- 메타 루브릭 (Meta-Rubric): 평가의 기본 원칙을 정의하는 '헌법'과 같은 정적 규칙 집합입니다.
- 적응형 루브릭 (Adaptive Rubric): 두 개의 후보 응답 ( $o_i, o_j$ ) 간의 의미적 차이 ( $\Delta_{ij}$ ) 를 분석하여, 해당 비교 상황에 맞춰 동적으로 생성되는 평가 기준입니다.
- 쌍별 비교 (Pairwise Comparison): 단일 응답에 점수를 매기는 것이 아니라, 두 응답을 각 기준 (Criterion) 에 대해 비교하여 상대적 선호도 ( $v_k \in \{-2, \dots, 2\}$ ) 를 산출합니다.
- 외부 집계: 기준별 점수를 외부에서 가중 평균하여 최종 선호도 점수를 도출합니다. 이는 모델 내부에 원칙을 암묵적으로 학습시키는 것을 방지합니다.
Pointwise Verifiable Rubrics (PVRs):
- 객관적으로 검증 가능한 작업 (형식 제약, 정답 확인 등) 에 대해 단일 응답 (Pointwise) 으로 검증 가능한 기준을 제공합니다.
- 이는 하드 컨스트레인트 (Hard Constraints) 로서 퇴화된 행동을 방지하고, 검증 가능한 보상 성분을 제공합니다.
계층적 메타 루브릭 정제 파이프라인:
- 일반 메타 루브릭 (General Meta Rubric): 도메인 간 일반화 가능한 원칙을 자동 진화 알고리즘 (Genetic Algorithm + Beam Search) 을 통해 최적화합니다. 특히 희소하고 편향된 보상을 처리하기 위해 비대칭 GRPO (Asym-GRPO) 를 사용하여 상위 성능을 보이는 편집 (Edit) 만 학습에 반영합니다.
- 도메인 메타 루브릭 (Domain Meta Rubric): 특정 도메인 (코드, 창의적 글쓰기 등) 에 맞춰 인간 전문가의 개입 (Human-in-the-loop) 을 통해 오류 분석 및 원칙을 세밀하게 조정합니다.

B. RL 통합 (OpenRS in RL)

Bootstrapped Relative Policy Optimization (BRPO): 그룹 내 모든 응답 쌍을 비교하는 $O(N^2)$ 복잡도를 줄이기 위해, 무작위로 선택된 '앵커 (Anchor)' 응답과 나머지 응답을 비교하는 $O(N)$ 방식의 쌍별 평가를 적용합니다.
보상 신호 구성: 최종 보상 $R$ 은 쌍별 적응형 점수 ( $s_{i,ref}$ ) 와 점별 검증 가능 점수 ( $\phi_c$ ) 의 선형 결합으로 구성됩니다.
$R(q, o_i) = s_{i,ref} + \gamma \sum_{c \in V_q} \phi_c(o_i)$

3. 주요 기여 (Key Contributions)

원칙 일반화 문제로서의 재정의: 검증 불가능한 작업에 대한 보상 감독을 '학습된 함수'가 아닌 '명시적 원칙에 기반한 추론 과정'으로 전환했습니다.
OpenRS 시스템 오픈소스: PAMR 과 PVR 을 결합한 플러그 앤 플레이 (Plug-and-play) 형태의 LLM-as-a-Judge 시스템을 구축하고 오픈소스화했습니다.
성능 입증:
- Reward Modeling Benchmark: RM-Bench, JudgeBench, RewardBench v2, PPE Preference 등 4 개 벤치마크에서 기존 최강의 스칼라 보상 모델 (Skywork-Reward-V2 등) 을 상회하는 SOTA 성능을 기록했습니다. (평균 점수 89.4 vs 84.3)
- End-to-End RL: 스칼라 보상 모델을 OpenRS 로 교체하여 정책 최적화 (Policy Optimization) 를 수행했을 때, 하류 작업 (Instruction Following, Reasoning 등) 에서 일관된 성능 향상을 보였습니다.

4. 실험 결과 (Results)

벤치마크 성능: OpenRS 는 모든 벤치마크에서 인간 선호도와 가장 높은 일치도를 보였습니다. 특히 JudgeBench(편향성 테스트) 에서 11.3 점, RewardBench v2 에서 6.6 점의 큰 격차로 기존 모델을 압도했습니다.
모델 스케일링: Judge 로서 Qwen3-235B-A22B 와 같은 강력한 오픈 소스 모델을 사용할 때 성능이 선형적으로 향상되는 것을 확인했습니다.
RL 훈련 효과:
- Aha Moment: 기존 스칼라 보상 모델 하에서는 정책이 특정 모드 (Mode) 로 붕괴 (Collapse) 되는 반면, OpenRS 를 사용한 RL 은 정책 엔트로피가 일시 감소 후 다시 상승하여 안정화되는 패턴을 보였습니다. 이는 모델이 단순한 보상 최적화를 넘어 주관적 의식과 풍부한 표현력을 가진 새로운 능력을 획득했음을 시사합니다.
- Case Study: "1 일 남자친구"나 "루쉰 스타일 글쓰기"와 같은 정서적이고 창의적인 작업에서, OpenRS 기반 모델은 더 깊이 있고 인간적인 반응을 생성하는 반면, 스칼라 보상 모델 기반 모델은 안전하지만 평범한 답변을 생성했습니다.

5. 의의 및 결론 (Significance)

투명성과 해석 가능성: 보상 신호가 '블랙박스'가 아닌 명시적인 기준과 추론 과정을 통해 생성되므로, 평가의 투명성이 크게 향상되었습니다.
보상 해킹 방지: 점수 최적화 (Score Gaming) 대신 원칙 준수와 의미적 차이를 평가함으로써, 모델이 실제 인간 가치를 더 잘 반영하도록 유도합니다.
확장성: 검증 가능한 작업 (RLVR) 과 검증 불가능한 개방형 작업 (RLHF) 을 하나의 프레임워크로 통합하여, 다양한 도메인에서 확장 가능한 강화학습 솔루션을 제공합니다.
미래 지향성: 이 연구는 개방형 도메인에서도 DeepSeek-R1 과 같은 'Aha Moment(갑작스러운 능력의 비약적 향상)'가 발생할 수 있음을 시사하며, 이를 위한 새로운 보상 메커니즘의 가능성을 제시합니다.

결론적으로 OpenRS 는 단순한 점수 매기기를 넘어, 명시적 원칙과 적응형 추론을 기반으로 한 차세대 보상 시스템으로서, LLM 의 정교한 정렬 (Alignment) 과 능력 확장에 중요한 이정표가 됩니다.