Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "정답만 찾아서 망친다?" (기존 방식의 한계)

지금까지 AI 를 훈련시킬 때 가장 많이 쓰인 방법은 **보상 강화 학습 (RL)**이었습니다. 이 방법은 AI 가 정답을 맞출 때마다 "잘했다!"라고 칭찬하고, 틀리면 "아이고"라고 꾸짖는 방식입니다.

비유: "유명한 맛집만 찾는 여행 가이드"

기존 AI 는 정답 (맛있는 음식) 을 찾아내는 데만 집중합니다.
마치 여행 가이드가 "이 식당이 최고야!"라고 한 곳만 계속 추천하는 것과 같습니다.
문제점: 그 식당이 정말 맛있긴 하지만, 다른 훌륭한 식당들은 모두 무시해버립니다. 결국 AI 는 정답은 잘 맞추지만, 같은 문제를 풀 때 항상 똑같은 방법 (정답) 만 고집하게 됩니다.
결과: AI 가 새로운 아이디어를 내거나, 어려운 문제를 풀 때 다양한 시도를 하지 못하게 되어 다양성이 사라집니다 (Mode Collapse).

논문 저자들은 "정답을 찾는 것"과 "다양성을 유지하는 것"이 서로 충돌한다고 말합니다.

🎯 2. 해결책: "정답만 남기고, 나머지는 그대로 두자" (새로운 방법)

저자들은 **"정답이 아닌 것은 다 버리고, 정답들끼리는 원래 AI 가 가진 성향을 그대로 유지하자"**라고 제안합니다.

비유: "선별된 오디션"

기존 방식: "정답을 맞춘 사람만 뽑고, 그중에서도 가장 잘하는 1 명만 뽑자." (정답은 맞췄지만, 나머지 유망한 후보들은 다 떨어뜨림)
새로운 방식 (이 논문): "정답을 맞춘 사람만 오디션에 통과시키고, 그들 사이의 경쟁 구도는 원래 그대로 두자."
이렇게 하면 정답을 보장하면서도, AI 가 원래 가지고 있던 다양한 사고방식 (다양성) 을 잃지 않게 됩니다.

⚖️ 3. 핵심 기술: "저울질하기 (Alpha-DPG)"

이제 중요한 질문이 생깁니다. "정답만 남기되, 얼마나 다양한 모습을 보여줄지 어떻게 조절할까?"

저자들은 **'알파 ( $\alpha$ )'**라는 조절 장치를 만들었습니다. 이는 **'정확도 (Precision)'**와 '다양성 (Coverage)' 사이의 균형을 조절하는 다이얼입니다.

비유: "사진 필터 조절"

$\alpha$ 를 높게 설정하면 (정확도 우선): AI 는 정답을 맞출 확률을 극대화합니다. 마치 사진을 찍을 때 "가장 선명한 한 장"만 고집하는 것과 같습니다. (기존 RL 방식과 비슷하지만 더 안정적임)
$\alpha$ 를 낮게 설정하면 (다양성 우선): AI 는 정답을 맞출 확률을 조금 희생하더라도, 다양한 시도를 합니다. 마치 "모든 각도에서 찍은 다양한 사진"을 모아두는 것과 같습니다.
중간값: 이 두 가지 사이를 자유롭게 오가며, 상황에 맞춰 최적의 균형을 찾을 수 있습니다.

이론적으로 이 방법은 **"정답을 찾는 것 (Filtering)"**과 **"다양성을 유지하는 것 (Diversity)"**을 동시에 달성할 수 있는 파레토 최적 (Pareto Frontier) 지점을 만들어냅니다. 즉, 한 가지를 희생하지 않고 두 마리 토끼를 다 잡을 수 있게 된 것입니다.

📊 4. 실험 결과: "수학 증명으로 증명하다"

이론을 검증하기 위해 **Lean(리안)**이라는 수학적 증명 도구를 사용했습니다. 수학 문제는 정답이 명확하고, 증명 과정이 다양할수록 더 좋은 해결책을 찾을 수 있는 분야입니다.

결과: 새로운 방법 ( $\alpha$ -DPG) 을 사용한 AI 는 기존 방식들보다 더 넓은 범위 (다양성) 에서 정답을 찾아냈습니다.
특히 어려운 문제일수록, 기존 AI 는 한 가지 방법만 고집하다가 실패했지만, 이 새로운 AI 는 다양한 시도를 통해 정답을 찾아내는 능력이 뛰어났습니다.

💡 5. 요약: 왜 이 논문이 중요한가?

기존의 문제: AI 가 정답만 쫓다가 사고의 폭을 좁혀버렸다.
해결책: 정답은 필터링하되, 정답들 사이의 다양성은 보존하자.
기술적 혁신: '정확도'와 '다양성'을 조절할 수 있는 스위치 ( $\alpha$ ) 를 만들어, 상황에 맞는 AI 를 만들 수 있게 했다.
결론: **"무엇이든 남아있으면 그것이 진실이다"**라는 셜록 홈즈의 명언처럼, 불가능한 것 (틀린 답) 을 걸러내면, 남은 것 (정답들) 이 모두 진실이 될 수 있도록 AI 를 훈련시키는 것이 핵심입니다.

이 방법은 AI 가 단순히 정답만 외우는 기계가 아니라, 다양한 관점에서 문제를 해결할 수 있는 창의적인 파트너가 되는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity" (무엇이든 남아있으면 그것은 진실이어야 한다: 필터링이 LLM 의 추론을 주도하고 다양성을 형성한다) 라는 제목으로, 2026 년 3 월 NAVER Labs Europe 연구팀에 의해 발표되었습니다.

이 논문은 강화학습 (RL) 을 기반으로 한 대형 언어 모델 (LLM) 의 추론 능력 향상 과정에서 발생하는 다양성 손실 (Diversity Loss) 문제를 해결하고, 정밀도 (Precision) 와 커버리지 (Coverage) 사이의 균형을 잡을 수 있는 새로운 프레임워크를 제안합니다.

1. 문제 정의 (Problem)

배경: 최근 LLM 의 추론 능력 향상을 위해 검증 가능한 보상 (Verifiable Rewards) 을 이용한 강화학습 (RLVR, 예: PPO, GRPO) 이 사실상의 표준으로 자리 잡았습니다.
문제점: 그러나 RLVR 로 미세 조정된 모델들은 종종 심각한 다양성 손실을 겪습니다. 모델이 특정 고확률 영역 (Mode) 에만 집중하여 다른 유효한 해답을 무시하는 '모드 붕괴 (Mode Collapse)' 현상이 발생합니다.
근본 원인: 저자들은 이 현상이 RLVR 의 목적함수가 **역 KL 발산 (Reverse KL Divergence)**을 암묵적으로 최적화하기 때문이라고 주장합니다. 역 KL 은 '모드 탐색 (Mode-seeking)' 또는 '제로 포싱 (Zero-forcing)' 특성을 가지며, 목표 분포의 일부 모드에 확률 질량을 집중시키지만 다른 모드는 무시합니다. 이는 높은 정밀도 (Pass@1) 를 달성할 수 있지만, 다양한 해답을 탐색하는 능력 (Pass@k) 을 저하시킵니다.

2. 방법론 (Methodology)

저자는 **검증기 기반의 명시적 목표 분포 (Explicit Target Distribution)**를 정의하고, 이를 근사하기 위해 $\alpha$ -DPG를 도입한 DMVR (Distributional Matching with Verifiable Rewards) 프레임워크를 제안합니다.

2.1. 목표 분포의 정의

이상적인 목표 분포 $p_x(y)$ $p_{x} (y)$ 는 검증기 $v(y, x)$ $v (y, x)$ 가 1 인 (정답인) 응답들만 남기고, 나머지 응답들의 확률을 0 으로 만들되, 원래 베이스 모델 ( $\pi_{base}$ ) 의 상대적 확률 비율은 유지하는 분포로 정의됩니다.
- 수식: $p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$
이 분포는 정답을 항상 출력하면서도 베이스 모델이 가진 모든 유효한 다양성을 보존합니다.

2.2. $\alpha$ -DPG (Distributional Policy Gradient with $\alpha$ -divergence)

기존 RLVR 은 역 KL ( $\alpha \to 1$ ) 을, 기존 KL-DPG 나 RS-FT 는 순방향 KL ( $\alpha \to 0$ ) 을 사용합니다.
저자는 $\alpha$ -발산 ( $\alpha$ -divergence) 계열을 사용하여 이 두 극단 사이의 균형을 잡는 $\alpha$ -DPG를 제안합니다.
- $\alpha \to 1$ (역 KL): 정밀도 중시, 모드 탐색 (RLVR 과 유사).
- $\alpha \to 0$ (순방향 KL): 다양성 중시, 질량 커버링 (Mass-covering).
- $0 < \alpha < 1$ : 정밀도와 다양성 사이의 매끄러운 트레이드오프 가능.
$\alpha$ -DPG 는 가상의 보상 (Pseudo-reward) 을 계산하여 정책 경사 (Policy Gradient) 를 업데이트하며, $\alpha$ 값을 조절함으로써 Pareto 프론티어 상에서 원하는 지점을 선택할 수 있습니다.

3. 주요 기여 (Key Contributions)

DMVR 프레임워크 제안: 검증기 기반의 명시적 목표 분포를 근사하여 모델을 학습시키는 새로운 프레임워크를 정립했습니다.
RL 기반 방법의 다양성 손실 원인 규명: RLVR 이 역 KL 발산을 최적화함으로써 발생하는 '모드 탐색' 특성이 다양성 감소의 근본 원인임을 이론적으로 설명했습니다.
$\alpha$ -DPG 도입: 순방향 KL 과 역 KL 사이를 매끄럽게 연결하는 $\alpha$ -발산을 활용하여, 정밀도와 다양성 사이의 균형을 사용자가 제어할 수 있게 했습니다.
실증적 성과: Lean 정리 증명 벤치마크에서 기존 모든 방법론을 능가하는 성능을 보여주었습니다.

4. 실험 결과 (Results)

실험은 Lean (공식 수학 증명 도구) 환경에서 DeepSeek-Prover-V1.5 모델을 기반으로 수행되었습니다.

Pareto 프론티어 달성:
- 정밀도 (Pass@1): $\alpha$ 값이 1 에 가까울수록 (예: 0.999) GRPO 와 유사하거나 더 높은 정밀도를 달성했습니다.
- 커버리지 (Pass@256): $\alpha$ 값이 낮을수록 (예: 0.25) 기존 방법론들보다 훨씬 높은 커버리지를 달성했습니다. 특히 $\alpha=0.25$ 설정은 베이스 모델보다 정밀도는 높으면서도 커버리지는 가장 높게 유지하여 최상의 Pareto 최적점을 보여주었습니다.
다양성 분석:
- $\alpha$ 값이 낮을수록 증명 과정에서 사용되는 전제 (Premise) 와 전술 (Tactic) 의 엔트로피 (Shannon Entropy) 가 높게 유지되어, 모델이 더 다양한 증명 경로를 탐색함을 확인했습니다.
- 반면, 높은 $\alpha$ 값 (RLVR 유사) 은 모델이 특정 해답으로 수렴하여 다양성이 급격히 떨어지는 것을 관찰했습니다.
문제 난이도 변화:
- 기존 RL 방법 (GRPO 등) 은 중등도 문제를 쉽게 만들지만, 난이도가 높은 문제를 해결하지 못하게 만들어 '해결 불가'로 전환시키는 경향이 있었습니다.
- $\alpha$ -DPG (낮은 $\alpha$ ) 는 난이도가 높은 문제의 해결 가능성을 유지하면서 효율성을 개선하는 더 균형 잡힌 결과를 보였습니다.
Perplexity 분석:
- RLVR 모델들이 베이스 모델의 분포를 크게 벗어나지 않고 기존에 존재하던 해답을 재가중치 (Reweighting) 하는 것임을 확인했습니다. $\alpha$ -DPG 역시 베이스 모델의 분포에 가깝게 유지되면서 검증기를 만족하는 방향으로 조정됨을 보였습니다.

5. 의의 및 결론 (Significance)

이론적 통찰: RL 이 새로운 능력을 창출하는 것이 아니라, 베이스 모델에 이미 존재하는 해답을 필터링하고 가중치를 조정하는 과정임을 명확히 했습니다. 다양성 손실의 원인이 '목표 분포' 자체가 아니라, 이를 근사하는 '발산 (Divergence)'의 선택에 있음을 지적했습니다.
실용적 가치: $\alpha$ 파라미터를 조절함으로써 사용자는 작업의 성격 (높은 정밀도 필요 vs 높은 커버리지 필요) 에 따라 모델을 유연하게 튜닝할 수 있습니다.
미래 방향: 이 연구는 LLM 의 추론 능력 향상을 위해 단순한 보상 최대화를 넘어, 분포 매칭 (Distributional Matching) 관점에서 접근해야 함을 시사합니다. 특히 형식적 수학 증명과 같은 정답이 명확하고 다양성이 중요한 분야에서 DMVR 프레임워크가 강력한 대안이 될 수 있습니다.

요약하자면, 이 논문은 RL 기반 학습이 가져오는 다양성 손실 문제를 '발산 (Divergence) 의 선택'으로 해석하고, $\alpha$ -발산을 통해 정밀도와 다양성을 동시에 최적화할 수 있는 새로운 학습 프레임워크를 제시하여 LLM 추론 연구에 중요한 기여를 했습니다.

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

🕵️‍♂️ 1. 문제: "정답만 찾아서 망친다?" (기존 방식의 한계)

🎯 2. 해결책: "정답만 남기고, 나머지는 그대로 두자" (새로운 방법)

⚖️ 3. 핵심 기술: "저울질하기 (Alpha-DPG)"

📊 4. 실험 결과: "수학 증명으로 증명하다"

💡 5. 요약: 왜 이 논문이 중요한가?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 목표 분포의 정의

2.2. α\alphaα-DPG (Distributional Policy Gradient with α\alphaα-divergence)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction

2.2. $\alpha$ -DPG (Distributional Policy Gradient with $\alpha$ -divergence)