Soft Sequence Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

🎓 배경: AI 가 수학 문제를 풀 때 겪는 고민

거대한 인공지능 (LLM) 이 수학 문제를 풀거나 복잡한 논리를 전개할 때, 우리는 보통 **강화 학습 (RL)**이라는 방법을 씁니다. 이는 AI 가 여러 가지 답을 만들어내고, 그중에서 가장 좋은 답을 골라 "잘했어!"라고 칭찬하거나 "틀렸어!"라고 지적하며 학습하게 하는 방식입니다.

하지만 여기서 큰 문제가 생깁니다.
AI 가 **매번 새로운 답을 만들어내는 과정 (생성)**과, 그 답을 평가하고 수정하는 과정 (학습) 사이에 간극이 생기기 때문입니다. 마치 학생이 시험을 치고, 교사가 그 시험지를 채점할 때 학생이 이미 다른 교재를 보고 공부한 상태라면 채점 기준이 맞지 않을 수 있는 것과 비슷합니다.

🚧 기존 방법들의 한계: "잘못된 칭찬과 엄격한 처벌"

기존의 학습 방법들 (GRPO, GSPO 등) 은 이 간극을 메우기 위해 **'중요도 (Importance Sampling)'**라는 개념을 썼습니다. "이 답은 AI 가 원래 만들 확률보다 지금 더 중요하니까, 이 부분을 더 크게 반영하자"는 식입니다.

하지만 이 방식에는 두 가지 치명적인 단점이 있었습니다.

과도한 칭찬/비난 (Hard Clipping):
- 비유: 학생이 아주 엉뚱한 답을 냈을 때, 교사가 "너무 엉망이니까 이 점수는 아예 무시해버려!"라고 잘라버리는 (Clipping) 방식입니다.
- 문제: 안정성은 좋아지지만, AI 가 "아, 내가 이걸 잘못했구나"라고 배우는 중요한 신호 (학습 자료) 를 잃어버리게 됩니다. 마치 학생이 틀린 문제를 아예 지워버리고 다시는 보지 않는 것과 같습니다.
조금씩의 실수 누적:
- 비유: 긴 글을 쓸 때, 문장 하나하나의 확률을 따로따로 계산하다 보면, 작은 오차가 쌓여서 전체적인 평가가 왜곡됩니다.
- 문제: AI 가 긴 논리를 펼칠 때, 한 단어의 작은 실수가 전체 답을 망쳐버리는 과민 반응을 일으킬 수 있습니다.

✨ 새로운 해결책: SSPO (부드러운 시퀀스 정책 최적화)

이 논문은 이 문제를 해결하기 위해 SSPO라는 새로운 방법을 제안합니다. 이 방법은 **"부드러운 문턱"**과 **"전체적인 맥락"**을 동시에 잡습니다.

1. "잘라버리지 말고 부드럽게 줄여라" (Soft Gating)

기존에는 너무 큰 오차나 엉뚱한 답을 만나면 칼로 잘라버리는 (Hard Clipping) 방식을 썼다면, SSPO 는 부드러운 필터를 씌웁니다.

비유: 학생이 엉뚱한 답을 냈을 때, 교사가 "이건 너무 틀렸으니 무시해!"라고 하는 대신, "이 부분은 확실히 틀렸으니 점수를 조금만 줄이고, 그래도 다른 부분은 배울 수 있게 해보자"라고 부드럽게 조절합니다.
효과: AI 가 실수에서 완전히 배제되지 않고, 여전히 학습할 수 있는 신호를 받으면서도 너무 큰 충격 (학습 불안정) 을 받지 않게 됩니다.

2. "한 글자가 아니라 전체 문장을 보라" (Sequence-Level Coherence)

기존 방법은 단어 하나하나를 따로 평가하다가 문제가 생겼다면, SSPO 는 한 문장 (답변 전체) 을 하나의 덩어리로 봅니다.

비유: 학생이 긴 에세이를 썼을 때, 오타 하나 때문에 전체 점수를 깎는 게 아니라, "전체 흐름은 좋지만 이 부분만 다듬으면 완벽하겠다"라고 전체적인 맥락을 고려해 평가합니다.
효과: 긴 논리나 복잡한 수학 문제 풀이처럼, 여러 단어가 이어져야 하는 작업에서 AI 가 더 안정적으로 학습할 수 있습니다.

🏆 왜 이것이 중요한가요? (결과)

이 새로운 방법 (SSPO) 을 수학 문제 풀이 같은 복잡한 과제에 적용해 보니, 기존 방법들보다 학습이 더 안정적이었고 성능도 더 좋아졌습니다.

기존: "너무 틀렸어! (잘라버림)" → 학습이 멈춤.
기존: "조금 틀렸어? (과민반응)" → 학습이 흔들림.
SSPO: "전체적으로는 좋지만, 이 부분은 부드럽게 다듬자." → 안정적으로 성장함.

📝 한 줄 요약

이 논문은 **"AI 가 복잡한 문제를 풀 때, 실수를 칼로 잘라버리는 대신 부드럽게 다듬고, 단어 하나하나가 아닌 전체 답변의 맥락을 보며 학습하게 하는 새로운 방법"**을 제시합니다.

이로 인해 AI 는 더 많은 실수를 두려워하지 않고, 더 창의적이고 논리적인 사고를 할 수 있게 됩니다. 마치 엄격한 선생님 대신, 학생의 성장을 돕는 현명한 멘토가 등장한 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 정렬 (Alignment) 및 추론 능력 향상을 위해 강화학습 (RL) 이 널리 사용되고 있으며, 특히 **그룹 상대 정책 최적화 (GRPO)**와 같은 그룹 기반 정책 최적화 방법이 표준으로 자리 잡고 있습니다. 그러나 대규모 환경에서 GRPO 를 적용할 때 다음과 같은 근본적인 한계가 존재합니다.

오프-폴리시 (Off-policy) 학습의 불가피성: 모델 크기가 커지고 시퀀스가 길어짐에 따라 배치 크기가 증가하며, 이를 효율적으로 처리하기 위해 미니배치로 나누어 업데이트하는 과정에서 오프-폴리시 학습이 발생합니다.
중요도 샘플링 (Importance Sampling, IS) 의 분산 문제: 토큰 단위 (token-level) 로 계산된 중요도 비율이 시퀀스 단위로 곱해지면서 분산이 급격히 커집니다.
하드 클리핑 (Hard Clipping) 의 트레이드오프: 기존 방법 (PPO, GRPO 등) 은 분산을 줄이기 위해 중요도 비율을 하드하게 잘라냅니다 (Clipping). 이는 학습 안정성을 높이지만, 샘플 효율성 저하와 탐색 (Exploration) 능력 감소, 그리고 **엔트로피 붕괴 (Entropy Collapse)**를 초래할 수 있습니다.
단위 불일치: GRPO 는 토큰 단위로 중요도 보정을 수행하지만, 보상 (Reward) 은 시퀀스 전체에 대해 주어집니다. 이러한 단위 불일치가 학습 불안정을 유발합니다.

2. 방법론 (Methodology)

저자들은 **Soft Sequence Policy Optimization (SSPO)**을 제안합니다. 이는 시퀀스 수준의 일관성을 유지하면서도 토큰 수준의 적응성을 살리는 새로운 오프-폴리시 강화학습 목적 함수입니다.

핵심 아이디어

소프트 게이트 (Soft Gating) 함수 도입: 하드 클리핑 대신 토큰 확률 비율에 부드러운 게이트 함수를 적용하여 중요도 샘플링의 분산을 제어합니다.
기하평균 (Geometric Mean) 을 통한 시퀀스 수준 집계: 토큰 단위의 게이트 함수들을 기하평균으로 집계하여 시퀀스 수준의 가중치를 형성합니다. 이는 GMPO(Geometric-Mean Policy Optimization) 의 아이디어를 확장한 것으로, 토큰 단위 비율의 곱셈 구조를 자연스럽게 반영합니다.
이론적 기반:
- 목적 함수를 미분하여 분석한 결과, SSPO 의 그래디언트는 (i) 시퀀스 수준의 기하평균 집계된 게이트와 (ii) 로컬 소프트 중요도 가중치 $w(\rho; \hat{A})$ 에 의해 조절됨을 보였습니다.
- 게이트 함수 $f(\rho; \hat{A})$ 는 $\rho=1$ 에서 1 이 되며, $\rho$ 가 1 에서 멀어질수록 가중치가 부드럽게 감소하도록 설계되었습니다.
- 구체적으로 아크탄젠트 (arctan) 함수를 기반으로 한 지수 형태를 사용하여, **코시 (Cauchy) 분포 모양의 부드러운 신뢰 영역 (Soft Trust Region)**을 형성합니다. 이는 큰 편차를 가진 아웃라이어 토큰의 영향을 억제하면서도 그래디언트를 완전히 차단하지 않습니다.

수식적 특징

목적 함수:
$J_{SSPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( \prod_{t=1}^{|y_i|} f_{SSPO}(\rho_{i,t}(\theta); \hat{A}_i) \right)^{\frac{1}{|y_i|}} \cdot \hat{A}_i \right]$
게이트 함수 설계:
- 양의 이득 (Positive Advantage) 과 음의 이득 (Negative Advantage) 에 대해 서로 다른 온도 파라미터 ( $\tau_{pos}, \tau_{neg}$ ) 를 사용합니다.
- $\tau_{neg} \ge \tau_{pos}$ 로 설정하여, 음의 이득을 가진 토큰의 그래디언트가 더 빠르게 감쇠하도록 하여 학습 불안정을 방지합니다.

3. 주요 기여 (Key Contributions)

SSPO 제안: 시퀀스 일관성 (Sequence-coherent) 을 가지며 소프트 중요도 가중치를 적용한 새로운 오프-폴리시 목적 함수를 제안했습니다.
이론적 분석: SSPO 의 그래디언트 행동과 편향 - 분산 (Bias-Variance) 특성에 대한 이론적 분석을 제공했습니다. 특히 하드 클리핑 없이도 안정적인 신뢰 영역을 형성함을 보였습니다.
실험적 검증: 수학적 추론 벤치마크 (GSM8k, DeepMath103k) 에서 GRPO, GMPO, SAPO 와 비교하여 SSPO 의 성능을 평가했습니다.

4. 결과 (Results)

실험 설정: Qwen2.5-0.5B-Instruct 및 7B-Instruct 모델을 사용하여 수학적 추론 태스크 (GSM8k, DeepMath103k) 에 대해 훈련을 수행했습니다.
현재 상태: 논문에 따르면 실험적 평가는 **진행 중 (in progress)**이며, 상세한 정량적 비교 결과는 향후 수정판에서 공개될 예정입니다.
예상 효과: 논문의 서론과 결론에 따르면, SSPO 는 훈련 안정성을 개선하고 수학적 추론 작업에서 성능을 향상시키는 것으로 기대됩니다. 특히 하드 클리핑의 단점인 탐색 능력 저하를 완화하면서 분산을 제어하는 데 효과적입니다.

5. 의의 및 중요성 (Significance)

학습 안정성과 효율성의 균형: 기존 GRPO 나 GMPO 가 가진 '하드 클리핑'의 한계를 극복하고, SAPO 와 같은 소프트 방법론을 시퀀스 수준으로 확장함으로써 편향 - 분산 트레이드오프를 더 유리하게 해결합니다.
엔트로피 붕괴 방지: 하드 클리핑으로 인한 과도한 탐색 억제를 방지하고, 부드러운 게이트 메커니즘을 통해 모델이 적절한 탐색을 유지하도록 돕습니다.
실용성: 대규모 LLM 의 오프-폴리시 학습 파이프라인에서 필수적인 중요도 샘플링 문제를 해결하여, 더 긴 시퀀스와 복잡한 추론 태스크에 대한 RLVR(Reinforcement Learning from Verifiable Rewards) 의 적용 가능성을 높입니다.

요약하자면, SSPO 는 시퀀스 수준의 보상 구조와 토큰 수준의 부드러운 적응성을 결합하여, 대규모 언어 모델의 강화학습 정렬 과정에서 발생하는 불안정성과 효율성 문제를 동시에 해결하려는 혁신적인 접근법입니다.