Each language version is independently generated for its own context, not a direct translation.

🧠 SD-ZERO: 틀린 답을 고쳐주는 '스스로 배우는' AI

이 논문은 인공지능 (AI) 이 수학이나 코딩 문제를 풀 때, 정답만 알려주는 것이 아니라 "틀린 답을 어떻게 고쳐야 하는지" 스스로 배워 성능을 극적으로 높이는 방법을 소개합니다. 이 방법을 SD-ZERO라고 부릅니다.

기존의 방법들과 SD-ZERO 가 어떻게 다른지, 그리고 왜 이것이 획기적인지 쉬운 비유로 설명해 드릴게요.

1. 기존 방법들의 한계: "맞았나요, 틀렸나요?"

지금까지 AI 를 가르치는 두 가지 주요 방식이 있었습니다.

방식 A (강화학습 - RL): AI 가 문제를 풀면, "정답 (O)" 또는 "오답 (X)"이라는 단순한 점수만 줍니다.
- 비유: 시험지를 채점할 때, "100 점 맞았어!" 또는 "0 점이야!"라고만 말해주고, 어디서 실수했는지, 어떤 단계를 고쳐야 하는지는 알려주지 않는 것입니다. AI 는 "아, 내가 틀렸구나"라고만 알지, 어떻게 고쳐야 할지 모릅니다. 그래서 수많은 시도를 반복해야 겨우 정답을 찾아냅니다. (비효율적)
방식 B (증류 - Distillation): 아주 똑똑한 선생님 AI가 학생 AI 가 쓴 답안을 보고, "이 단어는 바꿔야 해, 이 문장은 더 자세히 써야 해"라고 자세한 피드백을 줍니다.
- 비유: 훌륭한 선생님에게 개별 지도를 받는 것입니다. 하지만 이 '선생님'을 구하는 데는 엄청난 비용이 들거나, 아예 존재하지 않을 수도 있습니다.

2. SD-ZERO 의 등장: "스스로 선생님, 스스로 학생"

SD-ZERO 는 외부 선생님이 필요 없으며, 단순히 'O/X'만 알려주는 환경에서도 AI 가 스스로 성장할 수 있게 합니다. 핵심은 AI 가 '생성자 (Generator)'와 '수정자 (Reviser)' 두 가지 역할을 동시에 수행한다는 점입니다.

🎭 역할극: "내가 내 답을 고쳐보자"

SD-ZERO 는 두 단계로 나뉩니다.

1 단계: 실수 교정 훈련 (SRT)

AI 가 문제를 풀어서 답을 냅니다.
정답인지 확인합니다 (O/X).
만약 틀렸다면 (X): AI 에게 "이 답은 틀렸어. 다시 시작해!"라고 말합니다.
만약 맞았다면 (O): AI 에게 "이 답은 맞는데, 더 깔끔하게 표현해봐"라고 말합니다.
AI 는 이 지시를 듣고 자신의 틀린 답을 고쳐서 새로운 답을 만듭니다.
핵심: AI 는 자신의 실수한 답안과 그 답이 틀렸다는 사실을 보고, 어떻게 고쳐야 하는지 학습합니다. 마치 학생이 자신의 오답 노트를 보며 "아, 여기서 실수했구나"라고 깨닫는 것과 같습니다.

2 단계: 스스로 가르치기 (Self-Distillation)

이제 AI 는 1 단계에서 배운 '수정 능력'을 바탕으로, 처음부터 바로 좋은 답을 내놓는 법을 배웁니다.
AI 는 자신의 수정 능력을 '내면화'합니다. 즉, 답을 쓸 때 "아, 여기서 실수할 것 같으니 처음부터 조심해서 써야지"라고 생각하며 답을 냅니다.
결과: AI 는 더 이상 답을 쓰고 고치는 과정을 거치지 않아도, 한 번에 짧고 정확한 답을 낼 수 있게 됩니다.

🌟 창의적인 비유: "요리사의 성장 과정"

이 과정을 요리사에 비유해 볼까요?

기존 방식 (RL): 요리사가 요리를 만들고, 미식가 (점수) 가 "맛없음 (X)"이라고만 합니다. 요리사는 "왜 맛없지? 소금? 양념?"을 모르기 때문에, 수천 번의 실패를 겪으며 우연히 맛있는 요리를 찾아냅니다.
기존 방식 (Distillation): 미식가가 "소금 2g 더 넣고, 불을 줄여야 해"라고 상세히 알려줍니다. 하지만 이 미식가는 비싸고 구하기 어렵습니다.
SD-ZERO 방식:
1. 요리사가 요리를 만들고, "맛없음 (X)"이라는 판정을 받습니다.
2. 요리사는 자신의 요리를 다시 맛보며 "아, 내가 소금을 너무 많이 넣었구나. 다시 만들어야지"라고 스스로 깨닫고 고칩니다. (1 단계: 실수 교정)
3. 이 과정을 반복한 후, 요리사는 고치는 법을 완전히 체득합니다. 이제부터는 처음부터 "소금 양을 정확히 재서" 한 번에 맛있는 요리를 만들어냅니다. (2 단계: 내면화)
4. 결국: 외부 미식가도 필요 없고, 수천 번의 실패도 줄이면서 한 번에 최고의 요리를 만들어내는 요리사가 됩니다.

🚀 SD-ZERO 가 가져온 놀라운 변화

이 논문의 실험 결과 (수학 및 코딩 문제) 에서 SD-ZERO 는 다음과 같은 성과를 냈습니다.

성능 대폭 향상: 기존 모델보다 10% 이상 더 많은 문제를 정확하게 풀었습니다.
효율성 극대화: 다른 방법들보다 훨씬 적은 데이터와 계산 자원으로 더 좋은 결과를 냈습니다.
답변 길이 단축: 처음에는 답을 고치는 과정에서 말이 길어졌지만, 최종적으로는 더 짧고 간결하게 정답을 내놓게 되었습니다. (불필요한 수다를 줄이고 핵심만 찌르는 능력)
지속적인 성장: AI 가 스스로 고치는 능력을 배울수록, 그 능력을 다시 학습시켜 더 똑똑하게 만들 수 있습니다. (iterative self-evolution)

💡 결론

SD-ZERO는 "틀린 답을 고치는 과정"을 통해 AI 에게 자세한 학습 신호를 만들어내는 혁신적인 방법입니다.

마치 스스로 오답 노트를 작성하고 분석하는 학생처럼, AI 는 외부의 도움을 받지 않아도 자신의 실수를 통해 더 똑똑해지고, 효율적으로 문제를 해결하는 법을 터득합니다. 이는 앞으로 AI 가 더 적은 비용으로 더 복잡한 문제를 해결할 수 있는 새로운 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

SD-ZERO: 이진 보상을 밀집된 자기 지도 학습 신호로 변환하는 자기 증류 기법

이 논문은 SD-ZERO (Self-Distillation Zero) 라는 새로운 후속 학습 (post-training) 방법을 제안합니다. 이 방법은 검증 가능한 환경 (수학, 코딩 등) 에서 언어 모델을 훈련할 때, 외부 교사 모델이나 고품질 데모 데이터 없이도 이진 보상 (binary reward) 만으로 밀집된 토큰 수준의 자기 지도 학습 (dense token-level self-supervision) 을 가능하게 합니다.

1. 문제 정의 (Problem)

현재 검증 가능한 작업 (수학, 코딩) 에서 언어 모델을 개선하는 후속 학습 방법은 크게 두 가지 범주로 나뉩니다.

강화 학습 (RLVR): 최종 답변의 정오 (Correct/Incorrect) 만을 이진 보상으로 사용합니다. 이는 광범위하게 적용 가능하지만, 학습 신호가 매우 희소 (sparse) 합니다. 모델이 어떤 중간 추론 단계가 잘못되었는지 알 수 없어, 좋은 추론을 발견하기 위해 수많은 시도를 해야 하므로 훈련 비용이 높습니다.
증류 (Distillation): 토큰 수준의 밀집된 피드백을 제공하여 학습 효율성을 높입니다. 하지만 기존 방법들은 외부에서 더 강력한 교사 모델이 필요하거나, 모델 자체보다 훨씬 고품질인 데모 데이터가 필요합니다. 이러한 데이터를 수집하는 것은 비용이 많이 들거나 불가능한 경우가 많습니다.

핵심 질문: 모델이 자신의 초기 시도 (잘못된 답변 포함) 와 희소한 이진 보상을 조건으로 삼아, 스스로에게 더 밀집된 학습 신호를 제공할 수 있을까요?

2. 방법론 (Methodology)

SD-ZERO 는 단일 모델을 생성자 (Generator) 와 수정자 (Reviser) 두 가지 역할로 활용하며, 두 단계로 이루어진 훈련 파이프라인을 사용합니다.

1 단계: 자기 수정 훈련 (Self-Revision Training, SRT)

목표: 모델이 자신의 잘못된 답변을 수정하거나, 올바른 답변을 재구성하는 능력을 학습시킵니다.
과정:
1. 입력 문제 $x$ 에 대해 초기 답변 $y_{init}$ 을 생성합니다.
2. 정답 확인기를 통해 이진 보상 $r \in \{0, 1\}$ 을 얻습니다.
3. 제어 프롬프트 (Control Prompt) 를 생성합니다.
  - $r=1$ (정답): "위 솔루션을 다시 표현하겠습니다." (재구성)
  - $r=0$ (오답): "잠깐, 이 답변은 틀렸습니다. 처음부터 다시 시작하겠습니다." (수정)
4. 동일한 모델을 사용하여 $y_{init}$ 과 $r$ 을 조건으로 하여 수정된 답변 $y_{revised}$ 를 생성합니다.
5. 수정이 성공한 (정답을 도출한) 사례만 필터링하여 데이터셋을 구성합니다.
손실 함수 ( $L_{SRT}$ ): 두 가지 작업을 동시에 학습합니다.
- $L_{revision}$ : 입력, 초기 시도, 보상 프롬프트를 조건으로 수정된 답변을 생성하는 능력.
- $L_{generation}$ : 입력만 조건으로 올바른 답변을 처음부터 생성하는 능력 (생성 능력 유지).

2 단계: 자기 증류 (Self-Distillation)

목표: 1 단계에서 학습된 '수정 능력'을 '생성 능력'으로 증류하여, 한 번의 시도만으로도 강력한 답변을 생성하도록 만듭니다.
과정:
- 학생 (Student): 1 단계 훈련된 모델 (SRT 모델) 로 초기화됩니다.
- 교사 (Teacher): 1 단계에서 고정된 SRT 모델이 역할을 합니다.
- 훈련: 학생이 생성한 답변 $y$ 와 그 이진 보상을 교사에게 입력하면, 교사는 $y$ 를 기반으로 토큰별 분포를 생성합니다. 학생은 이 교사 분포에 KL 발산 (KL Divergence) 을 최소화하도록 학습합니다.
효과: 이 과정을 통해 모델은 외부 교사 없이도, 자신의 실패 경험을 바탕으로 토큰 수준의 밀집된 피드백을 스스로 생성하여 학습합니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

1. 이진 보상을 밀집된 신호로 변환 (Token-Level Self-Localization)

SD-ZERO 는 단순히 오답을 처벌하는 것이 아니라, 어떤 토큰이 잘못되었는지 국소화 (localization) 합니다.
분석 결과, 수정자 (Reviser) 는 오답 시나리오에서 소수의 토큰에 집중된 높은 KL 손실 (보상) 을 부여하고, 정답 시나리오에서는 분포를 유지합니다. 이는 이진 보상이 토큰 수준의 구체적인 지도 신호로 변환되었음을 의미합니다.

2. 반복적 자기 진화 (Iterative Self-Evolution)

훈련 과정에서 모델의 수정 능력이 향상되므로, 업데이트된 모델을 새로운 교사 (Teacher) 로 동기화하여 추가적인 학습을 수행할 수 있습니다.
교사 동기화를 통해 추가적인 성능 향상 (약 3% 이상) 을 얻을 수 있으며, 이는 SD-ZERO 가 여러 번의 반복을 통해 지속적으로 진화할 수 있음을 보여줍니다.

3. 효율성과 성능의 동시 달성

샘플 효율성: 기존 RL 방법 (GRPO 등) 이一个问题당 여러 번의 시도를 필요로 하는 반면, SD-ZERO 의 자기 증류 단계는 문제당 단 하나의 응답만으로도 밀집된 학습이 가능합니다.
응답 길이 단축: 1 단계 (SRT) 만으로는 모델이 명시적인 자기 수정 ("잠깐, 다시 생각해보자" 등) 을 많이 사용하여 응답이 길어지지만, 2 단계 (Self-Distillation) 를 거치면 이러한 수정 행동을 내부화하여 토큰 수를 약 2 배 줄이면서도 성능은 향상시킵니다.

4. 실험 결과 (Results)

Qwen3-4B-Instruct 와 Olmo-3-7B-Instruct 모델을 사용하여 수학 및 코딩 벤치마크 (AIME, HMMT, LiveCodeBench 등) 에서 평가했습니다.

성능 향상: 베이스 모델 대비 최소 10% 이상의 평균 정확도 향상을 기록했습니다.
- Qwen3-4B: SRT 만으로 7.8% 향상, SD-ZERO 전체로 10.5% 향상.
- Olmo-3-7B: SRT 만으로 9.2% 향상, SD-ZERO 전체로 10.4% 향상.
기반 방법론 비교: 동일한 데이터 예산 하에서 Rejection Fine-Tuning (RFT), GRPO, Self-Distillation Fine-Tuning (SDFT) 등 강력한 베이스라인들을 모두 압도했습니다.
- 특히 SDFT 는 고품질 데모가 필요하지만, SD-ZERO 는 이진 정답 확인만으로도 더 나은 성능을 냈습니다.
- GRPO 와 비교했을 때 더 적은 샘플로 더 높은 성능을 달성했습니다.

5. 의의 및 결론 (Significance)

SD-ZERO 는 외부 교사 모델이나 고품질 데모 데이터 없이도, 모델이 자신의 실패 경험을 통해 스스로를 교정하고 증류할 수 있음을 증명했습니다. 이는 다음과 같은 의미를 가집니다:

접근성 향상: 고비용의 교사 모델이나 데이터 수집 없이도 강력한 추론 능력을 가진 모델을 훈련할 수 있는 길을 열었습니다.
효율성: 희소한 이진 보상을 밀집된 학습 신호로 변환하여, RL 기반 방법의 비효율성을 해결하면서도 토큰 수준의 정밀한 학습을 가능하게 합니다.
자기 진화: 모델이 스스로를 개선하고, 그 개선된 능력을 다시 학습에 활용하는 순환 구조를 통해 지속적인 성능 향상을 도모할 수 있습니다.

이 연구는 검증 가능한 도메인 (수학, 코딩) 에서뿐만 아니라, 향후 메타인지 신호를 활용한 보상 설계 등을 통해 비검증 도메인으로 확장될 수 있는 가능성을 제시합니다.

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision