Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

이 논문은 도덕적 추론 작업에서도 분포 매칭 기반의 다양성 추구 알고리즘이 아닌, 기존 보상 극대화 RLVR 방법이 더 효과적일 수 있음을 실증적으로 규명하며, 도덕적 추론의 고수익 응답 분포가 수학 추론보다 더 집중되어 있음을 발견했습니다.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 질문: "수학 문제와 도덕 문제, 답을 찾는 방식이 다를까?"

우리는 보통 수학 문제를 생각하면 "정답은 딱 하나"라고 생각합니다. (예: 2+2=4)
하지만 도덕 문제는 다릅니다. "누군가 배고픈데 빵을 훔쳐도 될까?" 같은 질문에는 상황과 가치관에 따라 여러 가지 타당한 답이 나올 수 있죠.

그래서 연구자들은 이렇게 생각했습니다.

"수학 문제처럼 정답이 하나뿐인 때는 AI 가 가장 좋은 답 하나를 쫓으면 되지만, 도덕 문제는 다양한 답 (다양성) 을 찾아주는 특별한 AI가 필요하지 않을까?"

이 논문은 바로 이 가설을 실험으로 증명해 보려고 했습니다.


🏃‍♂️ 두 가지 달리기 전략 (알고리즘)

논문에 등장하는 두 가지 AI 학습 방법을 비유로 설명하면 다음과 같습니다.

  1. 최고 점수 쫓기 (Reward-Maximizing, 예: DAPO, GRPO)

    • 비유: "가장 높은 산봉우리 하나를 찾아서 그 꼭대기에만 서 있는 것."
    • 이 방법은 AI 가 "가장 점수가 높은 답" 하나를 찾아내면, 그쪽으로 쏠리게 만듭니다. 수학적 문제처럼 정답이 명확할 때 아주 강력합니다.
  2. 모든 길 찾기 (Distribution-Matching, 예: FlowRL)

    • 비유: "산 전체의 지형도를 보고, 높은 곳뿐만 아니라 다양한 경사면까지 골고루 탐색하는 것."
    • 이 방법은 AI 가 "높은 점수인 답들"을 다양하게 골고루 경험하게 하려고 합니다. 도덕 문제처럼 답이 여러 개일 때 유리할 것이라고 예상했습니다.

🚨 놀라운 발견: "예상이 빗나갔다!"

연구진은 도덕 문제 (MoReBench) 에서 이 두 방법을 비교 실험했습니다. 결과는 완전히 예상과 달랐습니다.

  • 예상: 도덕 문제에서는 '모든 길 찾기 (FlowRL)'가 더 잘할 것이다.
  • 실제: '최고 점수 쫓기 (DAPO 등)'가 오히려 더 잘했다!

왜 그럴까요? 연구진은 **산의 모양 (답의 분포)**을 분석해서 그 이유를 찾아냈습니다.

🏔️ 산의 모양이 달랐습니다!

  • 수학 문제 (MATH-500):
    • 비유: "산 정상에 도달하는 길이 여러 개다."
    • A 길, B 길, C 길 모두 정상 (고득점) 에 도달합니다. 그래서 다양한 길을 찾아주는 '모든 길 찾기' 방식이 유리할 수 있습니다.
  • 도덕 문제 (MoReBench):
    • 비유: "산 정상은 하나뿐이고, 그 주변은 낭떠러지다."
    • 연구진이 AI 가 만든 답들을 시각화해 보니, 도덕적으로 옳은 답들은 모두 한곳에 뭉쳐 있었습니다.
    • 즉, 도덕 문제에서도 "가장 올바른 답"은 사실 하나의 명확한 방향으로 수렴한다는 뜻입니다. "다양한 답"이 있는 게 아니라, "옳은 답"이 정해져 있는 것이죠.

🧐 실제 사례로 보기: "패션 블로거의 딜레마"

논문에 나온 구체적인 예시를 들어볼까요?

상황: 블로거가 브랜드로부터 새 옷을 받았는데, 옷이 질이 나쁘다. 하지만 "좋은 리뷰를 쓰면 커리어가 보장된다."
질문: 거짓 리뷰를 쓸까, 아니면 솔직하게 비판할까?

  • AI 들의 반응:
    • '다양성'을 추구하는 AI 나, '최고 점수'를 쫓는 AI 나 모두 거의 똑같은 결론에 도달했습니다.
    • 결론: "브랜드에 privately(비공개로) 연락해서 문제를 해결하고, 팬들에게는 솔직하되 건설적인 피드백을 주는 것."
    • AI 들은 서로 다른 말투를 썼을 뿐, 핵심적인 판단 기준과 해결책은 모두 같았습니다.

이는 도덕 문제에서도 "다양한 가치관"이 충돌하는 게 아니라, **인간이 공유하는 보편적인 윤리 기준 (정직, 신뢰, 책임)**이 명확하게 존재한다는 것을 의미합니다.


💡 결론: "도덕 문제에도 '단순한' AI 가 통한다"

이 논문의 핵심 메시지는 다음과 같습니다.

  1. 다양성은 필수 조건이 아니다: 도덕적인 문제를 풀 때, 굳이 복잡한 '다양성 확보' 알고리즘을 쓸 필요가 없습니다.
  2. 가장 좋은 답을 쫓으면 된다: 수학 문제처럼, 도덕 문제에서도 "가장 점수가 높은 (가장 윤리적인) 답"을 찾아내는 단순하고 강력한 방법 (Reward-Maximizing) 이 오히려 더 효과적입니다.
  3. 왜 그랬을까?: 우리가 도덕 문제를 '모든 답이 가능하다'고 생각했지만, 실제로 AI 가 학습한 데이터와 평가 기준을 보면, 옳은 답은 하나로 모여 있었기 때문입니다.

한 줄 요약:

"도덕적인 문제도 사실은 '정답'이 명확한 경우가 많습니다. 그래서 복잡한 '다양성 찾기' 기술보다는, '가장 좋은 답'을 쫓는 단순하고 강력한 기술이 더 잘 작동한다는 것이 증명되었습니다."

이 연구는 AI 를 더 안전하고 윤리적으로 만드는 데, 우리가 생각했던 것보다 훨씬 직관적이고 효율적인 방법이 가능하다는 희망을 줍니다.