Each language version is independently generated for its own context, not a direct translation.
🧩 핵심 비유: "퍼즐 맞추기"와 "기억력"
이 연구는 AI 에게 완전히 새로운 '조각 퍼즐 맞추기' 게임을 가르치는 실험을 했습니다. 기존에 AI 가 배운 적이 없는 게임이죠.
- 기존 지식 (Prior Knowledge): AI 가 이미 잘하는 일들 (예: 사진 속 사람 찾기, 문서 읽기, 수학 문제 풀기 등).
- 새로운 과제: 9 개의 조각을 섞어서 원래 그림으로 맞추는 것.
연구진은 AI 에게 이 퍼즐을 가르치면서, **"새로운 것을 배우는 동안 기존 지식은 얼마나 잊어버리게 될까?"**를 관찰했습니다.
🏃♂️ 두 가지 학습 방법의 차이
1. 지도 학습 (SFT): "스스로 외우는 학생"
- 방식: 선생님이 정답과 함께 "이렇게 해"라고 바로 알려줍니다. (예: "이 조각은 1 번, 저 조각은 2 번")
- 결과:
- 장점: 퍼즐을 아주 빨리 잘 맞추게 됩니다. 몇 시간만 공부해도 정답을 외웁니다.
- 단점: 기억력이 망가집니다. 새로운 퍼즐을 외우느라, 예전에 잘하던 '사진 찾기'나 '문서 읽기' 실력이 급격히 떨어집니다. 마치 새로운 전화번호를 외우느라 어릴 적 친구 이름까지 까맣게 잊어버리는 것과 같습니다.
2. 강화 학습 (RFT): "스스로 고민하는 탐험가"
- 방식: 정답을 바로 주지 않습니다. AI 가 스스로 여러 번 시도해보고, 맞으면 "잘했어!" (보상), 틀리면 "아쉽네" (패널티) 를 받으며 스스로 학습합니다.
- 결과:
- 단점: 퍼즐을 잘 맞추는 데 시간이 더 걸립니다. 수만 번을 시도해야 합니다.
- 장점: 기억력이 유지됩니다. 새로운 퍼즐도 잘 맞추면서, 예전에 잘하던 '사진 찾기' 실력도 그대로 유지합니다.
🤔 왜 이런 차이가 생길까요? (핵심 발견)
연구진은 "왜 강화 학습이 기억력을 잘 지키는 걸까?"를 파고들었고, 데이터 (학습 자료) 의 성격에 답을 찾았습니다.
🧠 비유: "내 말투" vs "남의 말투"
지도 학습 (SFT) 의 문제:
- AI 에게 주는 정답 데이터가 AI 의 원래 말투나 생각 방식과 너무 다릅니다.
- 비유: 평소 조용한 사람이 갑자기 랩 가수를 따라 하라고 강요받는 상황입니다. 새로운 스타일을 억지로 익히느라, 원래의 자연스러운 말투 (기존 지식) 가 망가져 버립니다.
- 논문에서는 이를 **"큰 간섭 (Large Interference)"**이라고 표현했습니다.
강화 학습 (RFT) 의 해결책:
- AI 가 스스로 만들어낸 데이터 (시도한 답안) 를 학습합니다. 이 데이터는 AI 가 이미 어느 정도 익숙한 영역에서 나온 것입니다.
- 비유: AI 가 스스로 "아, 이 조각은 저기 붙을 것 같아"라고 추측하고, 그게 맞았을 때 그 경험을 학습합니다. 이는 AI 의 원래 사고방식과 자연스럽게 이어집니다.
- 논문에서는 이를 **"작은 간섭 (Small Interference)"**과 **"낮은 혼란도 (Low Perplexity)"**라고 표현했습니다. 즉, AI 가 이미 알고 있는 언어 영역을 살짝 확장하는 방식이라 기존 지식을 해치지 않습니다.
💡 놀라운 발견: "강화 학습의 데이터를 가르쳐도 될까?"
연구진은 더 흥미로운 실험을 했습니다.
"강화 학습 (RFT) 을 통해 AI 가 스스로 만들어낸 **정답과 생각 과정 (추론)**을 모아서, 다시 **지도 학습 (SFT)**으로 가르쳐 보면 어떨까?"
- 결과: 완벽한 조화!
- 새로운 퍼즐을 배우는 속도는 빠르면서도 (지도 학습의 장점), 기존 지식은 거의 잃지 않았습니다 (강화 학습의 장점).
- 핵심 교훈: 알고리즘 (학습 방법) 자체보다, **"무엇을 학습시키느냐 (데이터의 품질)"**가 기억력 보존에 훨씬 더 중요합니다.
📝 한 줄 요약
"새로운 것을 배울 때, AI 에게 정답을 강제로 외우게 하면 (지도 학습) 예전 지식을 잊어버리지만, AI 가 스스로 고민하고 발견한 과정을 학습하게 하면 (강화 학습), 새로운 것도 배우고 예전 지식도 잊지 않습니다."
이 연구는 앞으로 AI 를 더 안정적으로 발전시키기 위해, 어떤 데이터를 어떻게 학습시킬지를 신중하게 선택해야 함을 강조합니다. 마치 학생에게 무작정 외우게 하는 것보다, 스스로 탐구하게 유도하는 것이 더 오래 기억에 남는 것과 같은 원리입니다.