당신이 거대하고 매우 똑똑한 로봇에게 코드를 작성하거나, 수학 문제를 풀거나, 혹은 사람들이 실제로 좋아하는 방식으로 대화하는 법을 가르치려 한다고 상상해 보세요. 기존의 방식(PPO 또는 GRX로 불리는)은 마치 엄격한 코치가 "지난번에 했던 것과 똑같이 해, 하지만 너무 많이 바꾸지는 마. 안 그러면 너를 퇴출시킬 거야"라고 말하는 것과 비슷합니다.

이 방식이 효과적이긴 하지만, 이 논문은 세 가지 큰 문제를 지적합니다.

"단조로움(One-Note)" 문제: 로봇이 높은 점수를 받았던 몇 가지 방식에만 갇혀서, 문제를 해결하는 다른 창의적인 방법들을 놓치게 됩니다.
"취약함(Brittle)" 문제: 로봇이 새로운 아이디어를 탐색하려고 하면, "얼마나 변화를 허용할 것인가"에 대한 규칙이 경직되고 임의적이기 때문에 혼란에 빠지거나 망가지는 경우가 많습니다.
"표류(Drift)" 문제: 로봇이 서서히 어떻게 행동해야 하는지를 잊어버리고, 실제로 도움이 되기보다는 점수를 높이기 위해 시스템을 속이는 법을 배우게 됩니다.

새로운 솔루션: VP2O (Variational Proximal Policy Optimization)

저자들은 VP2O라고 불리는 새로운 방법을 제안합니다. 이를 이해하기 위해 몇 가지 비유를 들어보겠습니다.

1. "전문가 팀" vs "일반인"

하나의 거대한 뇌가 모든 것을 다 하게 만드는 대신, 이 논문은 혼합 전문가(Mixture-of-Experts, MoE) 모델을 사용합니다. 이것은 20명의 서로 다른 전문가가 한 방에 앉아 있는 회사와 같습니다.

기존 방식: 매니저(라우터)가 업무를 수행할 전문가 한 명을 선택하며, 그들은 모두 똑같이 완벽한 전문가가 되려고 노력합니다. 결국 그들은 모두 비슷하게 생각하게 되고, 팀은 창의성을 잃게 됩니다.
VP2O 방식: 매니저는 각 작업에 대해 소수의 전문가 팀을 선발합니다. VP2O는 각 전문가를 고유한 "입자" 또는 개별적인 존재로 취급합니다. 목표는 그들이 모두 똑같아지는 것이 아니라, 서로 다르면서도 각자의 특정 업무에 능숙해지는 것입니다.

2. "자기력을 가진 댄스 플로어" (Stein Variational Gradient Descent)

이것이 이 논문의 핵심 마법입니다. 20명의 전문가가 댄스 플로어 위의 무용수라고 상상해 보세요.

끌림 (자기력): 플로어에는 "높은 보상" 구역(최선의 답이 있는 곳)이 있습니다. 무용수들은 이 구역을 향해 자석처럼 끌려갑니다.
밀쳐냄 (개인 공간): 기존 방식에서는 무용수들이 같은 곳에 몰려들어 서로 발을 헛디디게 됩니다(이를 "모드 붕괴"라고 합니다). VP2O는 다음과 같은 규칙을 추가합니다: "만약 당신이 다른 사람과 너무 가깝다면, 밀쳐내야 한다."
결과: 무용수들은 높은 보상이 있는 구역 전체에 넓게 퍼집니다. 그들은 문제를 해결하는 단 하나의 "완벽한" 방법만을 찾는 것이 아니라, 문제를 해결하는 다양한 방법들을 찾아내며 더 넓은 영역을 커버합니다.

3. "스마트한 코치" vs "클리핑 규칙"

기존 방식에서 코치는 "클리핑" 규칙을 사용합니다: "네 춤 동작이 10% 이상 변하면, 나는 너를 제지하겠다." 이는 투박한 도구입니다.

VP2O의 접근법: 딱딱한 중단 대신, VP2O는 기하학을 사용합니다. 그것은 무용수들의 움직임의 "형태"를 살핍니다. 그리고 이렇게 말합니다: "당신이 시작했던 위치를 기준으로 이 특정한 기하학적 형태 안에 머물러 있는 한, 얼마든지 자유롭게 움직여도 좋다."
이를 통해 더 자연스럽고 유연한 움직임이 가능해집니다. 로봇은 규칙에 기반한 임의의 숫자가 아니라, 학습 과정의 실제 형태를 바탕으로 하기 때문에 규칙을 어기지 않으면서도 새로운 아이디어를 탐색할 수 있습니다.

4. "직교(Orthogonal)" 목표

전문가들이 서로를 복제하지 않도록, VP2O는 **직교화(Orthogonalization)**라고 불리는 규칙을 추가합니다.

비유: 두 명의 전문가에게 수학 문제를 풀라고 시킨다고 상상해 보세요. 만약 두 사람이 정확히 같은 방법을 사용한다면, 그것은 비효월적입니다. VP2O는 그들이 서로 다른 방법(예를 들어 한 명은 대수를 사용하고, 다른 한 명은 기하학을 사용함)을 사용하도록 강제합니다. 이는 팀이 어떤 문제든 처리할 수 있도록 다양한 도구를 갖추게 함을 보장합니다.

이 방법을 시도했을 때 어떤 결과가 나왔나요?

저자들은 이 방법을 20명의 전문가를 가진 거대 모델(330억 개의 파라미터)에 테스트했습니다. 결과는 다음과 같습니다.

코딩 (Codeforces): 가장 큰 성과였습니다. 새로운 방식은 로봇의 코딩 점수를 179점 높였습니다 (경쟁 프로그래밍에서 엄청난 도약입니다). 로봇은 단순히 더 잘하게 된 것이 아니라, 코드 문제를 해결하는 더 다양한 방법들을 찾아냈습니다.
수학 (AIME): 로봇은 더 많은 수학 문제를 정확하게 풀었습니다. 흥미롭게도, 로봇은 최종 답변을 설명할 때 더 적은 단어를 사용했는데, 이는 내부적인 추론(생각하는 과정)에는 더 많은 시간을 썼음에도 불구하고 더 효율적으로 변했음을 의미합니다.
지시 이행 (Instruction Following): 로봇은 복잡한 지시사항을 따르는 데 훨씬 더 능숙해졌는데, 이는 아마도 "하나의 크기로 통일된(one-size-fits-all)" 루틴에 갇혀 있지 않았기 때문일 것입니다.

결론

이 논문은 AI의 "두뇌"를 서로 닮아가는 것이 아니라 (자기적 밀쳐내기를 통해) 서로 다르게 행동하도록 장려되는 다양한 전문가들의 팀으로 취급함으로써, AI가 다음과 같이 변한다고 주장합니다:

더 창의적입니다 (더 많은 문제 해결 방법을 찾아냅니다).
더 안정적입니다 (충돌하거나 갇히지 않습니다).
더 효율적입니다 (업무를 완수하기 위해 더 적은 토큰을 사용합니다).

저자들은 이 방식이 AI가 길고 복잡한 답변(예: 16,000 토큰)을 작성해야 할 때, 즉 다양한 전문가 팀을 보유하는 것이 단일하고 경직된 전략을 갖는 것보다 더 가치 있을 때 가장 효과적이라고 강조합니다.

기술 요약: 변분 근사 근접 정책 최적화 (Variational Proximal Policy Optimization, VP2O)

1. 문제 정의

PPO(Proximal Policy Optimization) 및 그 변형(예: GRPO)을 활용한 인간 피드백 기반 강화 학습(RLHF)은 세 가지 지속적인 한계에 직면해 있습니다:

정책 모드 붕괴(Policy Mode Collapse): 정책이 높은 보상을 받는 좁은 행동 집합으로 수렴하여, 인간의 선호도 전체 스펙트럼을 포착하는 데 필요한 다양성을 희생하는 현상이 발생합니다.
비효де적인 탐색(Inefficient Exploration): 탐색이 특히 희소하거나 노이즈가 많은 보상 환경에서 취약하며, 엔트로피 보너스와 같은 휴리스틱에 의존하는 경우가 많습니다.
분포 드리프트 및 불안정성(Distributional Distributional Drift and Instability): 정책이 잘못 설정된 보상 모델에 과적합되어 "보상 해킹(reward hacking)"을 유발할 수 있습니다. 또한, PPO/GRPO의 토큰 수준 중요도 비율(importance ratios)은 훈련 중 높은 분산 노이즈를 유발하여 긴 시퀀스에서의 불안정성을 초래하며, 이를 해결하기 위해 고정된 클리핑(clipping)이나 KL 스케줄링과 같은 임시방편적인 조치가 필요합니다.

GRPO와 같은 현재의 접근 방식은 그래디언트 페널티를 통해 안정성을 개선하지만, 다양성 인지적 최적화와 탐색을 위한 원리적인 메커즘은 결여되어 있습니다.

2. 방법론: 변분 근사 근접 정책 최적화 (VP2O)

VP2O는 RLHF 정책 최적화를 변분 추론(variational inference) 문제로 재정의합니다. 근접 제어를 단순한 스칼라 클리핑 규칙로 취급하는 대신, 최적화 과정을 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처 내의 **스타인 변분 경사 하강법(Stein Variational Gradient Descent, SVGD)**으로 매핑합니다.

핵심 프레임워크

변분 재구성(Variational Reformulation): 본 논문은 PPO/GRPO 목적 함수를 현재 정책 $\pi_\theta$ 와 최적 정책 분포 $p^*$ 사이의 쿨백-라이블러 발산(Kullback-Leibler divergence) $D_{KL}(\pi_\theta \parallel p^*)$ 을 최소화하는 문제로 재구성합니다.
입자 기반 최적화(Particle-Based Optimization): 최적 분포 $p^*$ 는 단일 정책이 아닌 "입자(particles)"의 앙상블로 근사됩니다. VP2O에서 이러한 입자들은 희소 MoE 레이어 내의 **개별 전문가(individual experts)**로 구현됩니다.
스타인 수송 필드(Stein Transport Fields): 최적화에는 입자(전문가)를 업데이트하기 위해 SVGD를 활용합니다. 업데이트 규칙은 두 가지 힘을 결합합니다:
1. 구동력(Driving Force): 입자(전문가)를 $p^*$ 의 높은 보상 영역으로 이동시킵로 합니다.
2. 척력(Repulsive Force): 입자들이 단일 모드로 붕괴되는 것을 방지하여 다양성을 보존합니다.

주요 아키텍처 구성 요소

변분 앙상블로서의 MoE: MoE 레이어의 각 전문가 $i$ 는 별도의 정책 구성 요소 $\pi_{\theta_i}$ 역할을 합니다. 라우터 $\phi(\cdot)$ 는 각 토큰에 대해 희소한 전문가 부분 집합(Top-K)을 선택합니다.
프로토타입 상의 함수적 커널(Functional Kernels over Prototypes): 고차원 파라미터 공간을 다루기 위해, VP2O는 파라미터 공간이 아닌 출력 공간에서 커널 $K$ 를 정의합니다. 이는 각 전문가의 출력 투영 행렬의 주 고유벡터로부터 유도된 단위 노름 프로토타입 $p_i$ 를 유지합니다. 커널은 이 프로토타입 간의 각도 유사성을 측정합니다.
분리된 수송 필드(Decoupled Transport Field): 스타인 업데이트는 라우팅 활성도에 따라 분리됩니다:
- 인력(Attraction): 공동 활성화된 전문가(라우터에 의해 선택된 전문가)는 커널 가중치 그래디언트 평균화를 통해 정보를 공유합니다.
- 척력(Repulsion): 비활성 또는 드물게 공동 활성화되는 전문가들은 다양성을 장려하기 위해 커널 그래디언트 항을 통해 서로 밀어냅니다.
전문가 직교화(Expert Orthogonalization): 붕괴를 추가로 방지하기 위해, 동일한 Top-K 그룹 내에서 서로 다른 전문가 출력이 서로에게 투영되는 것을 최소화하는 직교성 손실(orthogonality loss)을 보조 손실로 도입합니다.
기하학적 신뢰 영역(Geometric Trust Regions): VP2O는 고정된 클리핑과 정적 KL 페널티를 두 가지 기하학적 제어로 대체합니다:
1. 앵커 프로토타입 예산(Anchor Prototype Budget): "앵커" 정책 스냅샷에 대한 저차원 프로토타입 공간에서의 단계 크기를 제한합니다.
2. 온-폴리시 행동 예산(On-Policy Behavior Budget): 고정된 스케줄 대신 드리프트 진단(KL 발산 및 유효 샘플 크기)에 기반한 이벤트 기반 동기화를 사용하여 필요할 때만 액터 정책을 갱신합니다.

3. 주요 기여

RLHF를 위한 SVGD: 본 논문은 KL 정규화된 보상 최대화를 SVGD를 사용하여 $D_{KL}(\pi_\theta \parallel p^*)$ 를 최소화하는 것으로 재해석합니다. 이는 PPO의 클리핑을 보상과 다양성을 공동 최적화하는 커널 가중 업데이트로 대체합니다.
결합된 전문가 특화(Joint Expert Specialization): 직교성 손실과 라우팅 다양화 손실을 결합한 특화된 목적 함수를 도입합니다. 이를 통해 각 전문가가 기능적으로 구별되는 행동을 발전시키도록 보장하며, 표준 PPO/GRPO에서 흔히 발생하는 전문가 붕괴를 완화합니다.
통합 프레임워크: VP2O는 사후 샘플링(posterior sampling)과 정책 제약을 통합하여, 임의적인 신뢰 영역에 의존하지 않고도 다양하고 불확실성을 인지하며 인간 선호도에 정렬된 정책을 가능하게 합니다.

4. 실험 결과

저자들은 VP2O를 33B/4B 희소 MoE 모델(총 파라미터 33B, 토큰당 활성 파라미터 4B)에서 평가하였으며, 동일한 조건 하에서 GRPO로 훈련된 베이스라인과 비교하였습니다.

성능 벤치마크

수학적 추론 (AIME): VP2O는 일관된 이득을 보였습니다. AIME 2024에서 8K 컨텍스트 시 +2.6%, 16K 컨텍스트 시 +1.6%의 개선을 달성했습니다. 특히, VP2O는 AIME 2024에서 베이스라인보다 약 2,000단계 더 빨리 수렴했습니다.
과학적 추론 (GPQA): 8K 컨텍스트에서는 거의 대등했으나, 16K 컨텍스트에서는 명확한 +1.8% 우위를 보여, 다양성의 이점이 긴 생성 예산이 필요한 복잡한 다단계 작업에서 유효함을 시사했습니다.
코드 생성 (Codeforces): 가장 큰 이득은 16K 컨텍스트에서 나타났으며, 여기서 VP2O는 베이스라인을 +179 ELO 및 +3.6 Pass@1 포인트 차이로 앞질렀습니다. 저자들은 이를 전문가들이 구조적으로 구별되는 해결 전략을 향해 밀어내는 척력 덕분이라고 설명합니다.
지시 이행 (IFBench/IFEval): VP2O는 모든 지시 이행 지표에서 가장 일관된 이득을 전달했으며, 컨텍스트 길이에 따라 +3.6%에서 +5.7% 사이의 개선을 보였습니다.

효율성 및 토큰 사용량

토큰 효율성: VP2O는 개선된 솔루션 효율성을 보여주었습니다. AIME 2025 (8K 컨텍스트)에서 VP2O는 더 높은 정확도를 달면서도 32% 적은 토큰(130개 적음)을 사용했습니다.
추론 패턴: "사고 토큰(thought tokens)" 대 "솔루션 토큰(solution tokens)" 분석 결과, VP2O는 특히 코딩 및 수학 작업에서 더 많이 "생각"하지만(중간 추론 토큰을 더 많이 생성), 최종 답변은 더 간결하게 작성하는 경향이 있음을 밝혀냈습니다.

훈련 역학(Training Dynamics)

안정성: VP2O는 훈련 초기 단계부터 안정적인 우위를 확보하였으며, 베이스라인에서 관찰되는 후기 훈련 저하(보상 과적합) 현상을 피했습니다.
수렴: VP2O는 특히 16K 컨텍스트 설정에서 더 빠른 수렴을 입증했습니다.

5. 의의 및 주장

본 논문은 VP2O가 현재 RLHF를 지배하고 있는 휴리스틱 제약(클리핑, 고정 KL 스케줄)에 대한 원리적인 대안을 제공한다고 주장합니다. 전문가 집단에 대한 변분 추론의 관점에서 정책 최적화를 바라봄으로써, VP2O는 다음과 같은 효과를 가집니다:

휴리스틱 의존도 감소: 데이터로부터 유도된 기하학적 근접 제어를 통해 임의적인 클리핑을 대체합니다.
다양성 강화: 스타인 척력과 직교성 제약을 통해 모드 붕괴와 전문가 중첩을 명시적으로 방지합니다.
장문 생성 능력 향상: 이점은 16K 토큰과 같은 더 긴 생성 컨텍스트에서 가장 두드러지며, 이는 기능적 다양성을 보존하는 것이 긴 형태의 강화 학습 궤적을 안정화하는 데 매우 중요하다는 것을 시사합니다.

저자들은 이러한 결과가 단일 모델 패밀리(33B/4B MoE)에서 유망하지만, 더 큰 규모(예: 70B+) 및 다양한 모델 아키텍처에 대한 추가 검증이 여전히 열린 과제로 남아 있다고 언급했습니다. 현재의 연구는 변분 프레임워크가 RLHF 훈련을 안정화하고 다양화하는 데 미치는 효용성에 초점을 맞추고 있습니다.

Variational Proximal Policy Optimization