Soft Sequence Policy Optimization

이 논문은 토큰 수준의 확률 비율에 소프트 게이트 함수를 도입하여 시퀀스 수준의 중요도 가중치를 개선하고, PPO 방식의 클리핑 문제를 해결함으로써 수학 추론 작업에서 훈련 안정성과 성능을 향상시키는 오프-폴리시 강화학습 방법인 'Soft Sequence Policy Optimization (SSPO)'을 제안합니다.

Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 배경: AI 가 수학 문제를 풀 때 겪는 고민

거대한 인공지능 (LLM) 이 수학 문제를 풀거나 복잡한 논리를 전개할 때, 우리는 보통 **강화 학습 (RL)**이라는 방법을 씁니다. 이는 AI 가 여러 가지 답을 만들어내고, 그중에서 가장 좋은 답을 골라 "잘했어!"라고 칭찬하거나 "틀렸어!"라고 지적하며 학습하게 하는 방식입니다.

하지만 여기서 큰 문제가 생깁니다.
AI 가 **매번 새로운 답을 만들어내는 과정 (생성)**과, 그 답을 평가하고 수정하는 과정 (학습) 사이에 간극이 생기기 때문입니다. 마치 학생이 시험을 치고, 교사가 그 시험지를 채점할 때 학생이 이미 다른 교재를 보고 공부한 상태라면 채점 기준이 맞지 않을 수 있는 것과 비슷합니다.

🚧 기존 방법들의 한계: "잘못된 칭찬과 엄격한 처벌"

기존의 학습 방법들 (GRPO, GSPO 등) 은 이 간극을 메우기 위해 **'중요도 (Importance Sampling)'**라는 개념을 썼습니다. "이 답은 AI 가 원래 만들 확률보다 지금 더 중요하니까, 이 부분을 더 크게 반영하자"는 식입니다.

하지만 이 방식에는 두 가지 치명적인 단점이 있었습니다.

  1. 과도한 칭찬/비난 (Hard Clipping):

    • 비유: 학생이 아주 엉뚱한 답을 냈을 때, 교사가 "너무 엉망이니까 이 점수는 아예 무시해버려!"라고 잘라버리는 (Clipping) 방식입니다.
    • 문제: 안정성은 좋아지지만, AI 가 "아, 내가 이걸 잘못했구나"라고 배우는 중요한 신호 (학습 자료) 를 잃어버리게 됩니다. 마치 학생이 틀린 문제를 아예 지워버리고 다시는 보지 않는 것과 같습니다.
  2. 조금씩의 실수 누적:

    • 비유: 긴 글을 쓸 때, 문장 하나하나의 확률을 따로따로 계산하다 보면, 작은 오차가 쌓여서 전체적인 평가가 왜곡됩니다.
    • 문제: AI 가 긴 논리를 펼칠 때, 한 단어의 작은 실수가 전체 답을 망쳐버리는 과민 반응을 일으킬 수 있습니다.

✨ 새로운 해결책: SSPO (부드러운 시퀀스 정책 최적화)

이 논문은 이 문제를 해결하기 위해 SSPO라는 새로운 방법을 제안합니다. 이 방법은 **"부드러운 문턱"**과 **"전체적인 맥락"**을 동시에 잡습니다.

1. "잘라버리지 말고 부드럽게 줄여라" (Soft Gating)

기존에는 너무 큰 오차나 엉뚱한 답을 만나면 칼로 잘라버리는 (Hard Clipping) 방식을 썼다면, SSPO 는 부드러운 필터를 씌웁니다.

  • 비유: 학생이 엉뚱한 답을 냈을 때, 교사가 "이건 너무 틀렸으니 무시해!"라고 하는 대신, "이 부분은 확실히 틀렸으니 점수를 조금만 줄이고, 그래도 다른 부분은 배울 수 있게 해보자"라고 부드럽게 조절합니다.
  • 효과: AI 가 실수에서 완전히 배제되지 않고, 여전히 학습할 수 있는 신호를 받으면서도 너무 큰 충격 (학습 불안정) 을 받지 않게 됩니다.

2. "한 글자가 아니라 전체 문장을 보라" (Sequence-Level Coherence)

기존 방법은 단어 하나하나를 따로 평가하다가 문제가 생겼다면, SSPO 는 한 문장 (답변 전체) 을 하나의 덩어리로 봅니다.

  • 비유: 학생이 긴 에세이를 썼을 때, 오타 하나 때문에 전체 점수를 깎는 게 아니라, "전체 흐름은 좋지만 이 부분만 다듬으면 완벽하겠다"라고 전체적인 맥락을 고려해 평가합니다.
  • 효과: 긴 논리나 복잡한 수학 문제 풀이처럼, 여러 단어가 이어져야 하는 작업에서 AI 가 더 안정적으로 학습할 수 있습니다.

🏆 왜 이것이 중요한가요? (결과)

이 새로운 방법 (SSPO) 을 수학 문제 풀이 같은 복잡한 과제에 적용해 보니, 기존 방법들보다 학습이 더 안정적이었고 성능도 더 좋아졌습니다.

  • 기존: "너무 틀렸어! (잘라버림)" → 학습이 멈춤.
  • 기존: "조금 틀렸어? (과민반응)" → 학습이 흔들림.
  • SSPO: "전체적으로는 좋지만, 이 부분은 부드럽게 다듬자." → 안정적으로 성장함.

📝 한 줄 요약

이 논문은 **"AI 가 복잡한 문제를 풀 때, 실수를 칼로 잘라버리는 대신 부드럽게 다듬고, 단어 하나하나가 아닌 전체 답변의 맥락을 보며 학습하게 하는 새로운 방법"**을 제시합니다.

이로 인해 AI 는 더 많은 실수를 두려워하지 않고, 더 창의적이고 논리적인 사고를 할 수 있게 됩니다. 마치 엄격한 선생님 대신, 학생의 성장을 돕는 현명한 멘토가 등장한 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →