Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric
이 논문은 다차원 인간 선호도를 단일 점수로 축소하는 기존 보상 모델의 한계를 극복하고, 오픈 엔디드 정렬을 위한 견고한 원칙 일반화를 실현하기 위해, 적응형 메타-루브릭과 검증 가능한 루브릭을 결합하여 명시적 추론 과정과 외부 기준별 비교를 통해 강화학습을 확장하는 '오픈 루브릭 시스템 (OpenRS)'을 제안합니다.