Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 왜 기존 방법은 실패했을까?

기존의 AI 학습 방법 (GRPO) 은 마치 한 반의 학생들에게 시험을 치르게 한 뒤, 점수 차이를 기준으로 칭찬이나 꾸중을 주는 방식과 비슷합니다.

기존 방식의 문제점:
- 반에 매우 쉬운 문제를 푼 학생 (100 점) 과 너무 어려운 문제를 푼 학생 (0 점) 이 섞여 있다면, 평균 점수와 편차 (표준편차) 를 계산할 때 이 극단적인 점수들이 전체 기준을 왜곡시킵니다.
- 예를 들어, 대부분의 학생이 60~~70 점인데, 한 명만 100 점과 한 명만 0 점이면, 60~~70 점대 학생들의 노력은 상대적으로 무시당하고, 100 점이나 0 점인 극단적인 사례에만 AI 가 과도하게 반응하게 됩니다.
- 특히 멀티모달 AI 는 이미지를 보고 추론을 해야 하므로, 이미지가 너무 복잡하거나 너무 단순한 경우, 혹은 AI 가 추론을 잘하거나 못 하는 경우 등 '극단적인 사례'가 더 자주 발생합니다.

2. 해결책: '두리안 (Durian)' 방법

저자들은 이 문제를 해결하기 위해 **'난이도별 그룹화'**라는 아이디어를 제안합니다. 이를 **'두리안 (Durian)'**이라고 이름 붙였습니다. (두리안은 가시처럼 까다롭지만, 속은 달콤한 과일이라는 의미로, 까다로운 문제를 잘 해결한다는 뜻입니다.)

두리안은 학생들을 두 가지 기준으로 다시 그룹을 나눕니다.

① 이미지 난이도 (시각적 복잡도)

비유: 시험지가 그림이 얼마나 복잡한지를 봅니다.
방법: 이미지의 픽셀들이 얼마나 다양하고 복잡한지 (엔트로피) 를 계산합니다.
- 쉬운 그룹: 단순한 그림 (예: 빨간 사과 하나).
- 어려운 그룹: 복잡한 그림 (예: 숲속의 모든 나무와 새를 다 그린 그림).
효과: 단순한 그림을 푼 학생들과 복잡한 그림을 푼 학생들을 같은 반에 섞지 않고, 난이도 비슷한 학생끼리만 모아서 서로의 점수를 비교합니다.

② 추론 난이도 (모델의 자신감)

비유: 학생이 문제를 풀 때 얼마나 자신 있었는지를 봅니다.
방법: AI 가 답을 낼 때, 그 과정에 대한 '자신감 (확률)'을 측정합니다.
- 자신 있는 그룹: "이건 확실해!"라고 생각하며 푼 문제.
- 불안한 그룹: "아마 이거겠지?"라며 고민하며 푼 문제.
효과: 자신이 확신하는 문제와 헷갈려서 푼 문제를 섞지 않고, 자신감 수준이 비슷한 학생끼리 그룹을 만들어 비교합니다.

3. 어떻게 작동할까요? (핵심 원리)

이제 AI 는 이렇게 학습합니다.

그룹 나누기: 모든 문제를 '이미지 난이도'와 '추론 자신감'에 따라 쉬움, 보통, 어려움으로 세 그룹 (또는 더 많은 그룹) 으로 나눕니다.
공정한 비교: 같은 그룹 안의 학생들끼리만 점수를 비교합니다. (예: 어려운 그림을 푼 학생들끼리만 서로의 점수를 비교해서 "너는 나보다 잘했네"라고 칭찬하거나 "나보다 못했네"라고 지적합니다.)
균형 잡힌 학습: 이렇게 하면, 아주 쉬운 문제나 아주 어려운 문제 때문에 전체 학습 기준이 뒤틀리는 것을 막을 수 있습니다. 모든 학생 (데이터) 이 공정한 평가를 받고, AI 는 자신의 실력에 맞는 적절한 피드백을 받으며 성장합니다.

4. 결과: 얼마나 좋아졌나요?

이 방법을 적용한 결과, AI 는 여러 수학 및 시각 추론 테스트에서 기존 방법보다 평균 11.3% 이상 더 높은 성능을 보였습니다.

실제 사례:
- 그림을 잘못 본 경우: "영국 인구가 중국보다 많다"는 차트 데이터를 보고, 기존 AI 는 혼동하다가 두리안 방법은 정확한 차이를 파악해 정답을 맞췄습니다.
- 복잡한 기하학 문제: 3D 공간에서 거리를 계산하는 문제에서, 기존 AI 는 잘못된 공식을 적용했지만 두리안 방법은 올바른 공식을 선택해 정답을 도출했습니다.

요약

이 논문은 **"모든 학생을 한 반에 섞어놓고 비교하면, 극단적인 성적이 전체를 망친다"**는 점을 지적합니다. 대신 **"난이도와 자신감에 따라 반을 나누어 공정한 경쟁을 시키자"**는 아이디어를 제시했습니다.

이 '두리안 (Durian)' 방법은 AI 가 이미지와 텍스트를 함께 볼 때 겪는 혼란을 줄여주어, 더 안정적이고 똑똑한 추론 능력을 갖게 해줍니다. 마치 각자의 수준에 맞는 교재를 주고, 비슷한 실력의 친구들과 함께 공부하게 하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 검증 가능한 보상을 활용한 강화학습 (RLVR) 과 그룹 상대적 정책 최적화 (GRPO) 는 대규모 언어 모델 (LLM) 및 멀티모달 LLM (MLLM) 의 추론 능력을 획기적으로 향상시켰습니다.
핵심 문제: 기존 GRPO 는 그룹 내 보상 (reward) 을 정규화할 때 **표준편차 (std)**를 사용합니다. 그러나 멀티모달 환경에서는 이 방식이 심각한 불안정성을 초래합니다.
- 극단적 샘플 (Extreme Samples) 의 영향: 그룹 내 대부분의 샘플이 거의 모두 정답 (보상 1) 이나 오답 (보상 0) 일 경우, 표준편차가 매우 작아집니다. 이로 인해 정규화 과정에서 극단적인 샘플들의 이점 (Advantage) 값이 과도하게 증폭되어 학습이 불안정해집니다.
- MLLM 의 취약성: 텍스트-only 모델과 달리 MLLM 은 **지각적 복잡성 (Perceptual Complexity)**과 **추론 불확실성 (Reasoning Uncertainty)**이라는 두 가지 요인에 의해 영향을 받기 때문에, 극단적인 보상 분포가 더 자주 발생하고 그 영향이 더 큽니다.
기존 해결책의 한계: 표준편차 항을 제거하면 극단적 샘플의 과적합은 막을 수 있지만, 그룹 내의 중요한 차별점 (intra-group distinctions) 이 사라져 학습 효율이 떨어집니다. 그룹 크기를 늘리는 것은 계산 비용이 너무 많이 듭니다.

2. 제안 방법: Durian (Methodology)

저자들은 **"난이도 인식 그룹 정규화 (Difficulty-Aware Group Normalization, Durian)"**를 제안합니다. 이는 샘플을 난이도에 따라 재그룹화하고, 각 그룹 내에서 표준편차를 공유하여 극단적 샘플의 영향을 완화하는 전략입니다.

A. 난이도 정의 (Difficulty Characterization)

각 샘플의 난이도를 두 가지 관점에서 정의합니다.

지각적 난이도 (Perceptual Difficulty):
- 측정 지표: 이미지 패치 (patch) 의 공분산 행렬 (covariance matrix) 고유값 분포의 엔트로피 (Entropy).
- 원리: 시각적 패턴이 복잡하고 다양할수록 고유값 분포의 엔트로피가 높아집니다. 이를 통해 이미지의 시각적 복잡성을 정량화합니다.
추론 난이도 (Reasoning Difficulty):
- 측정 지표: 모델이 생성한 토큰 시퀀스의 로그 확률 (Log Probability) 기반 신뢰도.
- 원리: 모델이 답변을 생성할 때의 평균 로그 확률이 낮을수록 (불확실성이 높을수록) 추론 난이도가 높다고 간주합니다.

B. 난이도 기반 재그룹화 (Re-grouping Strategy)

그룹 분리: 배치 (Batch) 내 샘플들을 지각적 난이도 (엔트로피) 와 추론 난이도 (모델 신뢰도) 에 따라 하위 그룹 (예: Easy, Medium, Hard) 으로 나눕니다.
그룹 내 공유 표준편차: 전체 배치가 아닌, 동일한 난이도 그룹 내에서만 표준편차 (std) 를 계산하여 공유합니다.
- 이를 통해 극단적으로 쉽거나 어려운 샘플들이 다른 난이도 그룹의 샘플들과 섞여 표준편차를 왜곡하는 것을 방지합니다.
이점 (Advantage) 계산 및 결합:
- 지각적 난이도 그룹과 추론 난이도 그룹에서 각각 정규화된 이점 ( $A_{Perceptual}, A_{Reasoning}$ ) 을 계산합니다.
- 원래 GRPO 이점 ( $A_{GRPO}$ ) 과 가중치 ( $\alpha$ ) 를 곱하여 결합된 이점 ( $A_{Combined}$ ) 을 생성합니다.
  $A_{Combined} = \alpha_{Ori} \cdot A_{GRPO} + \alpha_{Percep} \cdot A_{Perceptual} + \alpha_{Reason} \cdot A_{Reasoning}$

3. 주요 기여 (Key Contributions)

새로운 정규화 메커니즘: 멀티모달 추론 학습에서 발생하는 std 기반 정규화의 불안정성을 해결하기 위해, 샘플의 난이도 (지각적/추론적) 를 고려한 그룹화 전략을 처음 도입했습니다.
이중 관점의 난이도 측정: 데이터 중심 (이미지 엔트로피) 과 모델 중심 (모델 신뢰도) 의 두 가지 지표를 결합하여 샘플의 복잡성을 다각도로 분석합니다.
안정적인 최적화: 극단적 샘플에 의한 편향을 제거하면서도 그룹 내의 유의미한 차이를 보존하여, MLLM 의 학습 안정성과 성능을 동시에 향상시킵니다.

4. 실험 결과 (Results)

벤치마크: MathVerse, MathVision, MathVista, WeMath, HallusionBench 등 5 가지 멀티모달 추론 벤치마크에서 평가 수행.
성능 향상:
- 기존 GRPO 및 DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 기반 모델 대비 평균 11.3% 이상의 성능 향상을 기록했습니다.
- 특히 MathVision 벤치마크에서는 16% 이상의 개선 효과를 보였습니다.
- 소량의 데이터 (Geometry3K, 2.1k 샘플) 만으로도 대규모 데이터로 학습된 기존 최첨단 모델들과 경쟁하거나 능가하는 성능을 달성했습니다.
Ablation Study:
- 지각적 난이도 그룹화만 적용해도 성능이 향상되었으며, 추론 난이도 그룹화 또한 유의미한 기여를 했습니다.
- 두 전략을 결합한 Durian 이 가장 우수한 결과를 보였습니다.
민감도 분석: 그룹 수, 가중치 계수 등 하이퍼파라미터 변화에 대해 모델이 비교적 강건 (Robust) 하게 작동함을 확인했습니다.

5. 의의 및 결론 (Significance)

멀티모달 RL 의 한계 극복: MLLM 의 추론 학습에서 발생하는 "극단적 샘플에 의한 표준편차 왜곡" 문제를 체계적으로 해결한 첫 번째 연구 중 하나로 평가됩니다.
효율성: 추가적인 데이터 증강이나 복잡한 아키텍처 변경 없이, 기존 GRPO/DAPO 프레임워크에 통합 가능한 효율적인 방법론을 제시했습니다.
일반화 가능성: 샘플의 난이도에 맞춰 최적화 과정을 조정한다는 아이디어는 향후 다양한 멀티모달 강화학습 작업에 적용 가능한 일반적인 패러다임을 제시합니다.

요약하자면, Durian은 멀티모달 모델이 복잡한 시각 정보와 추론 과정을 처리할 때 발생하는 학습 불안정성을, 샘플의 난이도를 인식하여 그룹을 세분화하고 정규화 기준을 공유하는 방식으로 해결함으로써, 기존 방법론보다 훨씬 안정적이고 높은 성능의 추론 능력을 달성하게 합니다.