Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 문제: "AI 는 왜 새로운 길을 찾지 못할까?"

지금까지 AI(대형 언어 모델) 를 수학이나 코딩 같은 정답이 명확한 분야에서 가르칠 때, **'정답 확인기 (Verifier)'**를 사용했습니다. AI 가 문제를 풀면 정답과 비교해서 "맞으면 점수 주고, 틀리면 점수 깎기"를 반복하며 학습시켰죠.

하지만 연구자들은 이런 방식의 한계를 발견했습니다.

비유: imagine AI 가 미로 찾기 게임을 하고 있다고 상상해 보세요.
기존 방식은 AI 가 이미 걸어본 길 중에서 "가장 짧고 안전한 길"만 반복해서 찾게 만드는 것이었습니다. AI 는 미로에서 새로운 길을 뚫어보는 용기보다는, 이미 알고 있는 길만 더 빠르게, 더 확실히 걷는 데만 집중하게 된 것입니다. 이를 **'탐험의 한계 (Exploration Ceiling)'**라고 부릅니다.

💡 해결책: "머리 속의 뇌세포를 살짝 흔들어주기" (PSN-RLVR)

저자들은 AI 가 새로운 길을 찾을 수 있도록 **파라미터 공간 노이즈 (Parameter-Space Noise, PSN)**라는 기술을 도입했습니다.

1. 기존 방식 vs 새로운 방식

기존 방식 (단어 단위 노이즈): AI 가 글을 쓸 때, 매 단어마다 무작위로 조금씩 틀리게 하거나 (예: "고양이" 대신 "강아지"라고 쓰게 함) 온도를 높이는 방식입니다.
- 문제점: 마치 미로에서 매 1 걸음마다 방향을 무작위로 바꾸는 것과 같습니다. 처음에는 재미있을 수 있지만, 긴 미로 (복잡한 추론) 를 풀다 보면 방향 감각을 잃고 엉뚱한 곳으로 빠져버립니다. 논리의 흐름이 끊겨버리는 거죠.
새로운 방식 (PSN-RLVR): AI 의 머리 속 구조 (파라미터) 자체를 학습 시작 전에 살짝 흔들어줍니다.
- 비유: 미로에 들어가기 전에 미로 전체를 바라보는 '시각'을 살짝 다르게 설정하는 것입니다. "오늘은 왼쪽으로 조금 더 기울어서 보자"라고 결정한 뒤, 그 시각을 미로 전체를 빠져나갈 때까지 유지합니다.
- 효과: AI 는 처음부터 끝까지 일관된 새로운 관점으로 문제를 풀게 됩니다. 그래서 긴 논리 흐름 (Chain-of-Thought) 을 유지하면서도, 기존에 없던 새로운 해결책을 발견할 수 있게 됩니다.

2. 두 가지 중요한 장치 (부품)

이 방법을 쓸 때 생기는 두 가지 문제를 해결하기 위해 저자들은 두 가지 장치를 달았습니다.

장치 1: "틀린 길도 기록해두기" (Truncated Importance Sampling, TIS)
- AI 가 흔들린 시각으로 새로운 길을 찾아다니다 보면, 원래의 AI 와는 다른 답을 내놓을 수 있습니다. 이때 원래 AI 가 그 답을 배울 때 혼란을 겪지 않도록, "이 답은 조금 다른 시각에서 나온 거니까 점수를 조정해서 받아주자"라고 보정해주는 장치입니다.
장치 2: "적당한 흔들림을 찾는 자동 조절기" (Adaptive Noise Scheduler)
- 너무 많이 흔들면 AI 가 망가지고, 너무 적게 흔들면 효과가 없습니다. 이 장치는 AI 가 현재 얼마나 자신감을 가지고 있는지, 그리고 생성한 답들이 얼마나 다양한지를 실시간으로 체크해서 가장 적절한 흔들림의 강도를 자동으로 조절해 줍니다.

🏆 실험 결과: 무엇이 달라졌을까?

이 방법을 적용한 결과 (PSN-GRPO), 다음과 같은 놀라운 변화가 있었습니다.

대규모 시뮬레이션에서 압도적 승리:
- AI 가 한 번에 256 개의 답을 만들어서 그중 가장 좋은 걸 고르는 상황 (Large Sampling Budget) 에서, 기존 방법보다 훨씬 높은 정답률을 기록했습니다.
- 비유: 기존 AI 는 "이미 알고 있는 10 개의 길 중 하나"만 고르다가 지쳤다면, 새로운 AI 는 "새로운 256 개의 길"을 모두 시도해 보고 그중 진짜 보물 (정답) 을 찾아냈습니다.
다양한 사고방식 확보:
- AI 가 만들어내는 답들의 종류 (의미적 다양성) 가 훨씬 풍부해졌습니다. 똑같은 문제를 풀더라도 전혀 다른 접근법을 사용하게 된 것입니다.
긴 논리 흐름 유지:
- 수학 문제처럼 단계가 많은 복잡한 문제일수록 이 방법의 효과가 더 컸습니다. 논리가 끊어지지 않고 끝까지 이어지는 '일관된 탐험'이 가능해졌기 때문입니다.

📝 한 줄 요약

"AI 가 이미 알고 있는 길만 반복하지 않게 하려면, AI 의 '시각' 자체를 학습 전에 살짝 흔들어주어, 긴 여정 내내 일관된 새로운 관점으로 미로를 탐험하게 해야 한다."

이 연구는 AI 가 단순히 정답을 더 잘 맞추는 것을 넘어, 진정으로 새로운 아이디어와 해결책을 창출하는 능력을 키우는 중요한 디딤돌이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의: RLVR 의 '탐색 한계 (Exploration Ceiling)'

현재 상황: RLVR (예: GRPO, PPO) 은 수학 및 코드 생성과 같이 정답이 명확한 분야에서 LLM 의 추론 능력을 크게 향상시켰습니다. 그러나 최근 연구들은 RLVR 이 기존에 존재하던 해결 경로를 재가중치 (reweighting) 하거나 선택 효율성 (pass@1) 만을 개선할 뿐, 진정으로 새로운 추론 전략을 발견하지는 못한다고 지적합니다.
근본 원인:
- RLVR 을 거친 모델은 사전 학습 분포 내에 갇히게 되어, 초기 정책에서 확률이 낮았던 우수한 해답 영역을 탐색하지 못합니다.
- 기존의 탐색 기법 (예: 토큰 수준의 온도 샘플링, Nucleus Sampling) 은 각 단계에서 무작위성을 주입하지만, 이는 시간적으로 일관성 없는 (temporally uncorrelated) 노이즈를 생성합니다.
- 복잡한 다단계 추론 (Chain-of-Thought, CoT) 에서 토큰 수준의 작은 노이즈가 누적되면 전역적인 논리적 일관성이 깨지고, 결과적으로 긴 추론 경로의 질이 저하됩니다.

2. 방법론: PSN-RLVR (Parameter-Space Noise)

저자들은 행동 공간 (Action Space) 이 아닌 매개변수 공간 (Parameter Space) 에서 노이즈를 주입하여 시간적으로 일관된 경로 수준의 탐색을 유도하는 새로운 프레임워크를 제안했습니다.

핵심 구성 요소

매개변수 공간 노이즈 (Parameter-Space Noise, PSN):
- 롤아웃 (Rollout) 생성 전에 정책의 가중치 $\theta$ 에 가우시안 노이즈를 추가하여 $\tilde{\theta} = \theta + \epsilon$ 을 만듭니다.
- 이 노이즈는 롤아웃 전체 동안 고정되므로, 생성된 시퀀스 전체에 걸쳐 일관된 탐색 전략을 유지합니다. 이는 CoT 의 논리적 일관성을 해치지 않으면서 새로운 해답 공간을 탐색하게 합니다.
- 실험 결과, MLP (Feed-Forward) 레이어에 노이즈를 주입하는 것이 가장 효과적이었습니다.
Truncated Importance Sampling (TIS):
- 노이즈가 주입된 정책 ( $\pi_{\tilde{\theta}}$ ) 으로 데이터를 수집하지만, 원래의 깨끗한 정책 ( $\pi_{\theta}$ ) 을 업데이트해야 하므로 Off-policy 불일치가 발생합니다.
- 이를 해결하기 위해 중요도 샘플링 (Importance Sampling) 비율을 사용하되, 분산이 무한대로 커지는 것을 방지하기 위해 **Truncated Importance Sampling (TIS)**을 적용하여 학습 안정성을 확보했습니다.
실시간 적응형 노이즈 스케줄러 (Real-time Adaptive Noise Scheduler):
- KL 발산 (KL Divergence) 기반의 적응형 제어는 계산 비용이 너무 높습니다.
- 대신, **시맨틱 다양성 (Semantic Diversity)**과 **모델의 자기 확신도 (Self-Certainty)**를 결합한 경량화된 대리 모델 (Surrogate) 을 사용하여 실시간으로 노이즈 크기 ( $\sigma$ ) 를 조절합니다.
- 모델이 너무 확신하거나 (Self-certainty 높음) 생성된 답변들이 유사할 때 (Semantic similarity 높음) 노이즈를 증가시켜 탐색을 촉진합니다.

3. 핵심 기여

RLVR 을 위한 최초의 체계적인 매개변수 공간 노이즈 연구:
- 토큰 수준의 노이즈가 아닌 정책 가중치 자체를 변형하여 LLM 의 추론 능력을 확장하는 새로운 패러다임을 제시했습니다.
RLVR 특화 문제 해결 모듈:
- Off-policy 불일치를 해결하기 위한 TIS와, 계산 비용을 줄이면서도 효과적인 탐색을 유도하는 경량 적응형 스케줄러를 개발했습니다.
광범위한 설계 공간 탐색:
- 노이즈 주입 위치 (MLP vs LM Head 등), 노이즈 크기, 모델 일반화, 기존 탐색 기법과의 상호 보완성 등을 체계적으로 분석했습니다.

4. 실험 결과 및 성과

모델 및 데이터셋: Qwen2.5-Math-7B, Qwen3-4B 등을 사용하여 AIME 2024/2025, AMC 2023, OlympiadBench 등 고난이도 수학 벤치마크에서 평가했습니다.
주요 성과:
- 대규모 샘플링 예산 (Large Sampling Budgets) 에서의 우월성: pass@1 은 기존 GRPO 와 비슷하거나 약간 낮을 수 있으나, pass@256과 같은 대규모 샘플링 조건에서 기존 방법 (Pass@k 훈련, RLVR-Decomposed 등) 을 압도적으로 상회하는 성능을 보였습니다.
- 다양성 회복: 기존 RLVR 은 시맨틱 다양성과 연산 다양성이 감소하는 경향이 있었으나, PSN-GRPO 는 이를 회복하고 오히려 증가시켰습니다.
- 긴 추론 경로에서의 효과: AIME 24 와 같이 평균 응답 길이가 긴 (약 2k 토큰) 복잡한 문제에서 성능 격차가 가장 크게 나타났습니다. 이는 PSN 이 논리적 일관성을 유지하며 새로운 해결책을 찾았음을 의미합니다.
- 직교성 (Orthogonality): PSN 은 기존 탐색 기법 (예: Pass@k 훈련) 과 결합했을 때 추가적인 성능 향상을 제공하여 상호 보완적임을 입증했습니다.

5. 의의 및 결론

이 논문은 RLVR 이 단순히 기존 해답을 재배열하는 것을 넘어, 질적으로 새로운 해결 전략을 발견할 수 있는 가능성을 열었습니다.

이론적 의의: 토큰 수준의 무작위성이 아닌 매개변수 수준의 일관된 노이즈가 복잡한 CoT 추론에서 더 효과적임을 증명했습니다.
실용적 의의: 계산 비용이 적게 들면서도 대규모 샘플링 환경에서 LLM 의 최대 추론 한계 (Reasoning Capability Boundary) 를 확장할 수 있는 실용적인 방법을 제시했습니다.
향후 전망: 수학, 과학, 코딩 등 검증 가능한 보상이 존재하는 분야에서 LLM 의 자동화된 문제 해결 능력을 한 단계 더 끌어올리는 핵심 기술로 기대됩니다.

요약하자면, PSN-RLVR은 LLM 이 스스로의 사고 과정을 재구성하고 더 넓은 해답 공간을 탐색하도록 유도하여, 기존 RLVR 의 '탐색의 한계'를 돌파한 획기적인 방법론입니다.

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

🧠 핵심 문제: "AI 는 왜 새로운 길을 찾지 못할까?"

💡 해결책: "머리 속의 뇌세포를 살짝 흔들어주기" (PSN-RLVR)

1. 기존 방식 vs 새로운 방식

2. 두 가지 중요한 장치 (부품)

🏆 실험 결과: 무엇이 달라졌을까?

📝 한 줄 요약

1. 문제 정의: RLVR 의 '탐색 한계 (Exploration Ceiling)'

2. 방법론: PSN-RLVR (Parameter-Space Noise)

핵심 구성 요소

3. 핵심 기여

4. 실험 결과 및 성과

5. 의의 및 결론

유사한 논문

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback