Each language version is independently generated for its own context, not a direct translation.

🧠 1. 문제: 똑똑한 AI 가 "정답"만 고집하는 이유

최근 AI 는 수학 문제를 풀거나 코드를 작성할 때 아주 훌륭합니다. 마치 수학 경시대회 선수처럼요. 이 선수들은 "정답이 하나"인 문제를 풀 때, Reinforcement Learning(강화 학습) 이라는 훈련을 통해 매우 빠르게 정답을 찾아냅니다.

하지만 주관적인 질문 (예: "이 영화의 결말은 어떻게 해석해야 할까?", "이 정책은 누구에게 유리할까?") 이 나오면 문제가 생깁니다.

주관적 질문의 특징: 정답이 하나가 아닙니다. 사람마다, 입장에 따라 답이 다릅니다.
AI 의 문제: AI 는 "정답이 하나"인 훈련을 너무 많이 받아서, 다양한 관점을 고려하기보다 하나의 '최적의 답'만 찾으려고 합니다. 마치 수학 문제를 풀 때, 다른 해석은 모두 틀린 것으로 치부하고 정답만 외우는 학생처럼요.

🎭 2. 해결책: '다양한 역할극'을 시킨다 (MultiRole-R1)

저자들은 이 문제를 해결하기 위해 **"다양성 (Diversity)"**을 키우는 새로운 훈련 방법인 MultiRole-R1을 제안합니다. 이 방법은 두 가지 핵심 아이디어를 사용합니다.

① 시나리오 1: "역할극"을 통해 관점을 넓히기 (Perspective Diversity)

이것은 마치 드라마 촬영 현장과 같습니다.

기존 방식: 배우가 한 명만 있어서 모든 대사를 혼자 합니다.
새로운 방식 (MultiRole-R1): 같은 질문을 받더라도, **다른 역할 (Role)**을 맡은 배우들이 등장합니다.
- 예: "택시 요금을 올리자"는 질문에 대해, 운전기사, 승객, 정부 관계자, 환경 운동가가 각각 자신의 입장에서 논리를 펼칩니다.
- AI 는 이 다양한 목소리를 모두 듣고, 각자의 논리가 일관되게 유지되도록 훈련받습니다. 이렇게 하면 AI 는 "내 생각"뿐만 아니라 "그 사람의 생각"도 할 수 있게 됩니다.

② 시나리오 2: "말하기 스타일"을 다양하게 하기 (Token-level Diversity)

이것은 요리에 비유할 수 있습니다.

기존 방식: 같은 재료 (정답) 를 쓰더라도, 항상 똑같은 레시피로 요리합니다. (비슷한 문장, 비슷한 단어만 반복)
새로운 방식: 같은 재료라도 소스, 향신료, 조리법을 다양하게 바꿔서 요리합니다.
- AI 가 같은 결론에 도달하더라도, 그 과정 (추론) 에서 사용하는 단어, 문장 구조, 논리 전개 방식을 다양하게 만들어줍니다. 이렇게 하면 AI 는 더 창의적이고 유연하게 생각할 수 있습니다.

🚀 3. 어떻게 훈련할까? (두 단계 과정)

이 AI 를 훈련시키는 과정은 크게 두 단계로 나뉩니다.

1 단계: 역할극 연습 (SFT)
- AI 에게 "이제 너는 A 역할, B 역할, C 역할을 번갈아 가며 생각해보라"라고 시켜서, 다양한 관점이 섞인 긴 대화 기록을 만들어냅니다.
- 이때, AI 가 스스로 만든 다양한 답변들 중 일관성 있고 논리적인 것들만 골라내어 다시 학습시킵니다. (마치 좋은 연극 대본만 선별하는 것처럼요)
2 단계: 다양성 점수 부여 (강화 학습)
- 이제 AI 가 답변을 할 때, 정답만 맞으면 점수를 주는 게 아니라, "답변이 얼마나 다양하고 창의적인가?"에도 점수를 줍니다.
- 만약 AI 가 똑같은 말만 반복하면 점수가 낮아지고, 새로운 관점을 제시하거나 표현을 다르게 하면 점수가 올라갑니다.
- 이 과정을 통해 AI 는 "정답을 맞추는 것"과 "다양하게 생각하는 것"을 동시에 배우게 됩니다.

📊 4. 결과는 어떨까?

이 방법을 적용한 결과 놀라운 일이 일어났습니다.

주관적 질문: AI 가 훨씬 더 똑똑하고 균형 잡힌 답변을 내놓았습니다. (정확도 14% 이상 향상)
객관적 질문 (수학 등): 엉뚱하게도, 수학 문제 풀이 능력까지도 향상되었습니다.
- 이유: "다양하게 생각해보는 훈련"을 했기 때문에, 수학 문제에서도 한 가지 길만 고집하지 않고 여러 가지 풀이법을 시도하게 되어, 더 정확한 해답을 찾을 확률이 높아진 것입니다.
흥미로운 발견: "답변이 길수록 (Thinking Length)" 좋은 게 아니라, "답변이 다양할수록 (Diversity)" 정확도가 높다는 것이 증명되었습니다. 즉, 길게 떠드는 것보다 다양한 관점을 담는 것이 더 중요합니다.

💡 5. 한 줄 요약

"AI 가 주관적인 문제를 잘 풀게 하려면, '정답' 하나만 찾아내는 훈련을 멈추고, '다양한 사람의 입장에서 생각해보는 역할극'을 시키고, '다양한 표현을 쓰도록' 칭찬해줘야 한다."

이 연구는 AI 가 단순히 계산기처럼 작동하는 것을 넘어, 인간의 복잡한 생각과 감정을 이해하고 다양한 관점에서 문제를 해결할 수 있는 진정한 '지성'으로 발전하는 중요한 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 주관적 질문을 위한 다양성 강화 추론 (DIVERSITY-ENHANCED REASONING FOR SUBJECTIVE QUESTIONS)

이 논문은 ICLR 2026 에 제출된 것으로, 대규모 추론 모델 (LRM) 이 주관적 질문 (Subjective Questions) 에서 겪는 한계를 극복하기 위해 제안된 MultiRole-R1 프레임워크에 대한 연구입니다.

1. 문제 정의 (Problem)

배경: DeepSeek-R1, OpenAI o1 과 같은 최신 LRM 은 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards) 을 통해 수학, 코딩 등 객관적 추론 작업에서 탁월한 성능을 보입니다.
한계: RLVR 은 모델의 생성 다양성을 저하시키는 (Diversity Degradation) 경향이 있습니다. 이는 정답이 하나인 객관적 작업에는 유리하지만, 주관적 질문 (예: 윤리적 딜레마, 문화적 의견, 사회적 이슈) 에서는 치명적입니다.
주관적 질문의 특성: 주관적 질문은 절대적인 정답이 없으며, 답변은 답변자의 역할 (Role) 이나 이해관계자 (Stakeholder) 의 관점에 따라 달라집니다. 기존 RLVR 기반 훈련은 '하나의 정답'을 찾도록 모델을 최적화하여, 다양한 관점을 포괄하는 추론을 생성하는 데 실패합니다.
기존 연구의 부족: 최근 다양성 강화 훈련 연구들이 객관적 작업에 집중하고 있어, 주관적 작업에 특화된 훈련 방법은 부재했습니다.

2. 방법론 (Methodology: MultiRole-R1)

저자들은 MultiRole-R1이라는 새로운 훈련 프레임워크를 제안하며, 이는 **의견 다양성 (Perspective Diversity)**과 **토큰 수준 다양성 (Token-level Diversity)**을 동시에 강화하는 두 단계로 구성됩니다.

1 단계: 다중 역할 추론 경로 합성 및 파인튜닝 (Multi-Role Reasoning Paths Synthesis & Finetuning)

목표: 모델이 "어떤 관점에서 생각할지"를 학습하도록 하여 의미적 다양성을 확보합니다.
과정:
1. 다중 역할 탐색: 주어진 질문 (Q) 에 대해 상반된 의견을 가진 여러 역할 (예: 전문가, 이해관계자, 특정 인구 집단 등) 을 생성합니다.
2. 자기 일관성 필터링 (Self-Consistency Filtering): 각 역할에 대해 여러 추론 경로를 샘플링한 후, 다수결 투표 (Majority Voting) 를 통해 가장 일관된 답변을 선별합니다.
3. 추론 구조 생성: 서로 다른 역할의 추론 경로를 하나의 긴 CoT(Chain-of-Thought) 로 연결합니다. 이때 위치 편향을 피하기 위해 역할 순서를 무작위로 섞습니다.
4. 병합 전략:
  - 발산 병합 (Divergent Merging): 역할마다 다른 답이 필요한 경우 (예: GLOQA), 가중치 합산으로 최종 예측을 도출.
  - 수렴 병합 (Convergent Merging): 역할마다 같은 답이 나와야 하는 경우, 다수결을 통해 합의 도출.
5. Supervised Finetuning (SFT): 이렇게 합성된 데이터를 기반으로 모델을 파인튜닝합니다.

2 단계: 다양성 강화 강화학습 (Diversity Enhanced Reinforcement Learning)

목표: 추론 과정의 토큰 수준 다양성을 확장하여 답의 탐색 공간을 넓힙니다.
알고리즘: Group Relative Policy Optimization (GRPO) 을 사용합니다.
보상 설계 (Reward Shaping):
- 검증 가능한 보상 (Verifiable Reward, $R_{acc}$ ): 역할 기반 정답 정확도.
- 다양성 보상 (Diversity Reward, $R_{div}$ ): 어휘, 구조, 담화 등 다양한 차원의 언어적 다양성을 측정하여 추가 보상 신호로 활용.
- 최종 보상: $R = \delta R_{acc} + (1-\delta)R_{div}$ .
- 효과: GRPO 에서 그룹 내 보상이 균일하면 학습이 멈추는 (Advantage가 0 이 되는) 문제를 해결하고, 다양성을 장려하여 더 풍부한 추론 경로를 탐색하도록 유도합니다.

3. 주요 기여 (Key Contributions)

주관적 추론을 위한 최초의 다양성 강화 훈련 프레임워크: MultiRole-R1 을 제안하여, LRM 이 주관적 질문에서 다양한 관점을 통합하고 여러 유효한 답변을 생성할 수 있도록 했습니다.
비지도 데이터 합성 파이프라인: 정답 (Ground Truth) 에 의존하지 않고, 모델이 스스로 생성한 다중 역할 추론 경로를 통해 고품질의 훈련 데이터를 합성하는 방법을 제시했습니다.
다양성과 정확도의 상관관계 규명: 기존 연구가 '추론 길이 (Length)'를 성능 지표로 여겼다면, 본 논문은 다양성 (Diversity) 이 정확도보다 더 일관된 지표임을 실증했습니다.

4. 실험 결과 (Results)

데이터셋: BBQ, GlobalOpinionQA (GLOQA), ETHICS 등 3 가지 주관적 작업 (In-Domain) 과 CALI, CSQA, GSM8K, AIME 2024 등 4 가지 객관적/주관적 혼합 작업 (Out-of-Domain) 에서 평가.
성능 향상:
- In-Domain (주관적 작업): 평균 **14.1%**의 정확도 향상.
- Out-of-Domain (객관적 포함): 평균 **7.64%**의 정확도 향상.
- AIME 2024 (고급 수학): 훈련 데이터에 수학 문제가 없었음에도 **5.78%**의 성능 향상 달성 (다양성 훈련의 일반화 능력 입증).
성분 분석: 전체 성능 향상 (10.6%) 중 **7.5%**는 다중 역할 SFT(의견 다양성) 에 기인하고, **3.1%**는 GRPO(토큰 다양성) 에 기인했습니다.
효율성: 성능은 향상되었으나, 평균 응답 길이는 오히려 단축되었습니다 (SFT 기준 1572 단어 → MultiRole-R1 기준 657 단어). 이는 불필요한 장황함 (Verbosity) 이 아닌, 다양성 기반의 효율적 추론이 가능함을 의미합니다.
다양성 vs 길이: 정확도와 다양성의 상관관계 ( $r=0.74$ ) 가 정확도와 길이의 상관관계 ( $r=0.55$ ) 보다 훨씬 높았습니다.

5. 의의 및 결론 (Significance)

RLVR 의 한계 극복: RLVR 이 초래하는 다양성 붕괴 문제를 해결하여, 주관적 질문과 같은 복잡한 현실 세계 문제 해결에 LRM 을 적용할 수 있는 길을 열었습니다.
새로운 성능 지표: 추론의 길이를 늘리는 것보다 다양한 관점을 탐색하는 것이 주관적 추론에서 더 중요하며, 이는 객관적 추론에서도 유효한 지표가 될 수 있음을 시사합니다.
일반화 능력: 주관적 질문 훈련을 통해 얻은 '다양성' 능력이 고급 수학 추론과 같은 객관적 영역으로도 전이됨을 보여주어, 모델의 추론 능력 향상 전략으로서의 잠재력을 입증했습니다.

요약하자면, 이 논문은 MultiRole-R1을 통해 모델이 다양한 이해관계자의 관점을 포괄하도록 훈련함으로써, 주관적 질문에서의 성능을 획기적으로 높였을 뿐만 아니라, 다양성이 추론 모델의 핵심 성능 지표임을 증명했습니다.

Diversity-Enhanced Reasoning for Subjective Questions