RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "수학 영재 반의 새로운 선생님"

상상해 보세요. 한 학생이 수학 문제를 풀고 있습니다. 그런데 이 학생은 정답만 맞으면 칭찬을 받는 환경에서 자랐습니다.

1. 문제: "정답만 맞으면 OK"의 함정 (기존 방식)

기존의 AI 학습 방식은 마치 **"정답이 20 이면 무조건 A+"**을 주는 선생님 같습니다.

상황: 학생이 문제를 풀다가 엉뚱한 공식을 쓰거나, 운 좋게 숫자를 맞춰서 정답 20 을 냈습니다.
결과: 선생님은 "정답이니까 A+"라고 줍니다.
문제점: 학생은 "아, 공식을 잘못 써도 정답만 맞으면 되는구나!"라고 생각합니다. 나중에 더 어려운 문제를 만나면, 논리는 엉망인데 운으로 정답을 맞추는 **'가짜 영재'**가 되어버립니다. 이를 논문에서는 **'보상 해킹 (Reward Hacking)'**이라고 부릅니다.

2. 실패한 시도: "너무 많은 채점 기준" (기존의 다른 방법)

최근에는 "정답만 보는 게 아니라, 풀이 과정도 꼼꼼히 봐야 한다"는 아이디어가 나왔습니다. 하지만 이 방법은 **너무 많은 채점 기준 (Rubric)**을 한 번에 모두 적용합니다.

상황: 학생이 아직 '사각형의 변'도 제대로 못 그리는 초보인데, 선생님에게 "변의 길이를 재고, 각도를 계산하고, 삼각함수도 적용하고, 논리적 비약도 없어야 해!"라고 모든 기준을 동시에 요구합니다.
결과: 학생은 "어? 내가 뭘 잘못했는지 모르겠는데, 다 틀렸대!"라며 좌절하고 학습이 멈춥니다. 너무 어려워서 혼란이 생기는 것입니다.

3. RuCL 의 해결책: "단계별 성장 커리큘럼"

이 논문이 제안한 RuCL은 아주 똑똑한 선생님처럼 학생의 성장 단계에 맞춰 채점 기준을 바꿔줍니다.

1 단계: 기초 다지기 (Stabilization)
- 상황: 학생이 아직 초보일 때, 선생님께서는 "그림에 있는 물체가 진짜 있는지 확인하기", "문제를 제대로 읽었는지 확인하기" 같은 기초적인 기준만 채점합니다.
- 효과: 학생은 "아, 내가 그림을 잘 보고 문제를 이해해야 하는구나"라고 배우며 기초 실력을 탄탄하게 다집니다.
2 단계: 점진적 난이도 상승 (Progressive Reasoning)
- 상황: 학생이 기초를 잘 다졌다는 신호 (기초 점수가 안정적으로 높아짐) 를 보내면, 선생님은 이제 "논리적 연결이 자연스러운가?", "복잡한 계산이 정확한가?" 같은 어려운 기준을 하나씩 추가합니다.
- 효과: 학생은 기초가 탄탄한 상태에서 새로운 도전을 하므로, 혼란 없이 차근차근 고급 논리력을 기를 수 있습니다.
3 단계: 완성 (Full Curriculum)
- 상황: 학생이 기초와 중급을 모두 마스터하면, 이제 **모든 기준 (기초 + 고급)**을 동시에 적용하여 최고의 실력을 끌어올립니다.

🌟 왜 이 방법이 특별한가요?

이 방법은 단순히 "쉬운 문제부터 어려운 문제까지" 순서대로 문제를 내는 것이 아니라, **"어떤 채점 기준을 언제 적용할지"**를 지능적으로 조절합니다.

기존 방식: 모든 학생에게 똑같은 시험지를 주고, 틀리면 다 같이 깎아냄. (초보자는 너무 힘들고, 영재는 지루함)
RuCL 방식: 학생의 실력에 맞춰 **시험지 난이도 (채점 기준)**를 실시간으로 조절함.
- 초보 때는 "글자 읽기"만 채점.
- 실력이 늘면 "문장 이해" 채점 추가.
- 고수가 되면 "논리적 비약 찾기" 채점 추가.

📈 실제 성과

이 방법을 적용한 결과, 기존 모델보다 평균 7.83% 더 높은 점수를 받았습니다. 특히 수학 문제나 복잡한 논리 추론에서, 단순히 운으로 정답을 맞추는 것이 아니라 진짜 논리적으로 문제를 해결하는 능력이 크게 향상되었습니다.

💡 한 줄 요약

"AI 가 그림 문제를 풀 때, 정답만 맞춘다고 칭찬하지 않고, 학생의 실력에 맞춰 '기초 채점'에서 '고급 논리 채점'까지 순서대로 가르쳐주니, AI 가 진짜 영재가 되었다!"

이처럼 RuCL 은 AI 가 **가짜 영재 (정답만 맞추는 AI)**가 되는 것을 막고, **진짜 영재 (논리적으로 생각하는 AI)**로 성장하도록 돕는 새로운 교육법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

MLLM 의 추론 능력을 강화하기 위해 **검증 가능한 보상을 이용한 강화학습 (RLVR)**이 주류 패러다임으로 자리 잡았습니다. 그러나 기존 RLVR 방식은 다음과 같은 심각한 문제점을 가지고 있습니다:

결과 중심 보상 (Outcome-Only Supervision) 의 한계: 정답 여부만 확인하는 방식은 모델이 중간 추론 과정의 질을 희생하고, 우연히 정답에 도달하는 **허위 추론 패턴 (Spurious Reasoning Patterns)**이나 **보상 해킹 (Reward Hacking)**을 학습하게 만듭니다. 즉, 논리적 결함이 있더라도 최종 답이 맞으면 보상을 받아 신뢰성이 떨어집니다.
기존 루브릭 (Rubric) 기반 방법의 비효율성: 추론 과정의 세부 항목을 평가하는 '루브릭'을 도입한 최근 연구들은 존재하지만, 두 가지 주요 문제가 있습니다.
1. 높은 계산 비용: 각 인스턴스 (문제) 마다 맞춤형 루브릭을 생성해야 하므로 온라인 RL 환경에서 계산 오버헤드가 큽니다.
2. 학습 역동성의 비효율: 모든 루브릭을 동등하게 학습 가능한 것으로 간주하여, 모델이 기초적인 시각 지각 (Visual Perception) 을 마스터하기 전에 복잡한 논리적 오류로 인해 과도하게 패널티를 받습니다. 이는 노이즈가 많은 그래디언트를 유발하고 학습 수렴을 방해합니다.

2. 방법론 (Methodology)

RuCL 은 커리큘럼 학습 (Curriculum Learning) 의 초점을 데이터 선택에서 **보상 설계 (Reward Design)**로 전환합니다. 모델의 역량에 따라 루브릭의 난이도를 계층화하고, 학습 단계에 따라 가중치를 동적으로 조정하는 계층적 루브릭 기반 커리큘럼 학습을 구현합니다.

2.1. 1 단계: 일반화된 루브릭 구축 및 계층화 (Generalized Rubric Construction & Stratification)

일반화된 루브릭 생성: 인스턴스별 맞춤형 생성 대신, 다양한 추론 작업에 공통적으로 적용 가능한 일반화된 루브릭 (Generalized Rubrics) 집합을 데이터 기반 (Teacher LLM 활용) 으로 생성합니다. 이는 인스턴스별 생성 비용을 획기적으로 줄입니다.
적용 가능성 및 난이도 평가: 생성된 루브릭 후보군을 샘플 데이터에 적용하여 두 가지 지표를 계산합니다.
- 적용률 (Applicability Rate): 해당 루브릭이 문제 컨텍스트에 얼마나 자주 적용되는지.
- 통과율 (Pass Rate): 현재 모델이 해당 루브릭을 만족하는 비율.
계층화 (Stratification): 통과율을 기반으로 루브릭을 두 가지 수준으로 분류합니다.
- 기초 루브릭 (Foundational, $R_{easy}$ ): 통과율이 높은 항목 (예: 시각적 요소 인식, 개체 추출). 모델이 초기에 안정적으로 학습해야 할 필수 기술.
- 고급 루브릭 (Advanced, $R_{hard}$ ): 통과율이 낮은 항목 (예: 복잡한 논리적 추론, 증거 기반 추론). 모델이 기초를 다진 후 점진적으로 학습해야 할 난이도 높은 기술.
통계적 근거: 통과율이 낮은 루브릭은 그래디언트 추정의 변동계수 (CV) 가 커져 노이즈가 심하다는 통계적 분석을 통해, 초기 학습 단계에서 이러한 노이즈를 배제해야 함을 이론적으로 증명합니다.

2.2. 2 단계: 동적 커리큘럼 학습 (Dynamic Curriculum Learning)

학습 과정에서 모델의 실시간 성능에 따라 기초 루브릭과 고급 루브릭의 가중치를 동적으로 조절합니다.

하이브리드 보상 시스템: 최종 정답 확인 (Rule-based) 과 계층화된 루브릭 기반 과정 평가를 결합합니다.
$r^{(t)}(y|x) = \alpha \cdot r_{ans} + (1-\alpha) \cdot r^{(t)}_{rub}$
여기서 $r^{(t)}_{rub} = (1-\lambda_t) \cdot \bar{r}_{easy} + \lambda_t \cdot \bar{r}_{hard}$ 입니다.
안정성 인지 커리큘럼 스케줄링 (Stability-Aware Scheduling):
1. 안정화 단계 (Stabilization Phase): 초기에는 $\lambda_t = 0$ 으로 설정하여 기초 루브릭 ( $R_{easy}$ ) 만 학습합니다. 모델이 기초 루브릭에서 일정 임계값 ( $\tau_{th}$ ) 이상의 성능을 일정 기간 (슬라이딩 윈도우) 동안 유지할 때까지 고급 루브릭을 도입하지 않습니다.
2. 커리큘럼 ramp-up: 기초 능력이 안정화되면, 시그모이드 (Sigmoid) 또는 선형 함수를 통해 $\lambda_t$ 를 점진적으로 증가시켜 고급 루브릭의 비중을 늘립니다.
3. 고급 통합 단계: 학습이 충분히 진행되면 $\lambda_t$ 를 최대값으로 고정하여 모든 루브릭을 종합적으로 평가합니다.

이 방식은 모델이 기초 지각 능력을 먼저 습득한 후 복잡한 추론을 학습하도록 유도하여, 초기 학습 불안정성을 해소하고 그래디언트 간섭을 최소화합니다.

3. 주요 기여 (Key Contributions)

보상 중심 커리큘럼 프레임워크 (RuCL) 제안: 데이터 선택이 아닌 보상 설계에 커리큘럼 학습을 적용하여, 모델의 역량에 맞춰 루브릭 난이도를 동적으로 조정하는 새로운 패러다임을 제시했습니다.
실용적이고 확장 가능한 파이프라인 구축: 데이터 기반 루브릭 생성, 적용 가능성 인지 평가 메커니즘, 성능 트리거 기반 커리큘럼 스케줄러를 통합하여, 기존 루브릭 기반 방법의 계산 비용과 학습 비효율 문제를 해결했습니다.
광범위한 실험을 통한 검증: 7 개의 벤치마크에서 RuCL 이 기존 모델 대비 평균 **7.83%**의 성능 향상을 달성했으며, 특히 복잡한 논리 추론 및 시각 지각 과제에서 뛰어난 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

벤치마크: MathVerse, MathVision, MathVista, WeMATH(수학 추론), LogicVista, Super-CLEVR Counting, MMMU(일반/논리 추론) 등 7 개 벤치마크 사용.
성능: Qwen2.5-VL-7B 모델을 기반으로 RuCL 을 적용한 결과, 평균 정확도가 **60.06%**로 상승하여 기존 오픈소스 추론 모델 중 SOTA(State-of-the-Art) 기록을 달성했습니다.
- WeMATH: 58.52% → 71.49% (+12.97%)
- Counting: 73.50% → 85.50% (+12.00%)
- LogicVista: 39.26% → 49.66% (+10.40%)
학습 역동성 분석: 기초 루브릭에 집중하는 초기 단계에서 시각적 지각 능력이 빠르게 향상되었고, 이후 고급 루브릭이 점진적으로 도입되면서 복잡한 추론 능력도 함께 성장하는 것을 확인했습니다.
Reward Hacking 방지: 정답은 맞지만 논리적 결함이 있는 경우 (Case Study 1) 에도 루브릭 기반 평가가 이를 감지하여 보상을 감소시킴으로써, 모델이 '운 좋은 추측'을 학습하는 것을 효과적으로 억제했습니다.

5. 의의 및 결론 (Significance)

RuCL 은 MLLM 의 추론 학습에서 **"어떻게 가르칠 것인가 (How to teach)"**에 대한 새로운 통찰을 제공합니다. 단순히 더 많은 데이터나 더 강력한 모델을 사용하는 것을 넘어, 학습 신호 (보상) 의 구조와 타이밍을 모델의 학습 곡선에 맞춰 최적화함으로써, 안정적이고 신뢰할 수 있는 추론 능력을 함양할 수 있음을 입증했습니다.

이 연구는 특히 보상 해킹 (Reward Hacking) 문제를 해결하고, 모델이 기초적인 시각 지각부터 고급 논리적 추론까지 단계적이고 체계적으로 발전하도록 유도하는 메커니즘을 제공한다는 점에서 향후 MLLM 의 강화학습 및 커리큘럼 학습 연구에 중요한 이정표가 될 것으로 기대됩니다.