Each language version is independently generated for its own context, not a direct translation.
🧠 핵심 문제: "AI 는 왜 새로운 길을 찾지 못할까?"
지금까지 AI(대형 언어 모델) 를 수학이나 코딩 같은 정답이 명확한 분야에서 가르칠 때, **'정답 확인기 (Verifier)'**를 사용했습니다. AI 가 문제를 풀면 정답과 비교해서 "맞으면 점수 주고, 틀리면 점수 깎기"를 반복하며 학습시켰죠.
하지만 연구자들은 이런 방식의 한계를 발견했습니다.
비유: imagine AI 가 미로 찾기 게임을 하고 있다고 상상해 보세요.
기존 방식은 AI 가 이미 걸어본 길 중에서 "가장 짧고 안전한 길"만 반복해서 찾게 만드는 것이었습니다. AI 는 미로에서 새로운 길을 뚫어보는 용기보다는, 이미 알고 있는 길만 더 빠르게, 더 확실히 걷는 데만 집중하게 된 것입니다. 이를 **'탐험의 한계 (Exploration Ceiling)'**라고 부릅니다.
💡 해결책: "머리 속의 뇌세포를 살짝 흔들어주기" (PSN-RLVR)
저자들은 AI 가 새로운 길을 찾을 수 있도록 **파라미터 공간 노이즈 (Parameter-Space Noise, PSN)**라는 기술을 도입했습니다.
1. 기존 방식 vs 새로운 방식
- 기존 방식 (단어 단위 노이즈): AI 가 글을 쓸 때, 매 단어마다 무작위로 조금씩 틀리게 하거나 (예: "고양이" 대신 "강아지"라고 쓰게 함) 온도를 높이는 방식입니다.
- 문제점: 마치 미로에서 매 1 걸음마다 방향을 무작위로 바꾸는 것과 같습니다. 처음에는 재미있을 수 있지만, 긴 미로 (복잡한 추론) 를 풀다 보면 방향 감각을 잃고 엉뚱한 곳으로 빠져버립니다. 논리의 흐름이 끊겨버리는 거죠.
- 새로운 방식 (PSN-RLVR): AI 의 머리 속 구조 (파라미터) 자체를 학습 시작 전에 살짝 흔들어줍니다.
- 비유: 미로에 들어가기 전에 미로 전체를 바라보는 '시각'을 살짝 다르게 설정하는 것입니다. "오늘은 왼쪽으로 조금 더 기울어서 보자"라고 결정한 뒤, 그 시각을 미로 전체를 빠져나갈 때까지 유지합니다.
- 효과: AI 는 처음부터 끝까지 일관된 새로운 관점으로 문제를 풀게 됩니다. 그래서 긴 논리 흐름 (Chain-of-Thought) 을 유지하면서도, 기존에 없던 새로운 해결책을 발견할 수 있게 됩니다.
2. 두 가지 중요한 장치 (부품)
이 방법을 쓸 때 생기는 두 가지 문제를 해결하기 위해 저자들은 두 가지 장치를 달았습니다.
- 장치 1: "틀린 길도 기록해두기" (Truncated Importance Sampling, TIS)
- AI 가 흔들린 시각으로 새로운 길을 찾아다니다 보면, 원래의 AI 와는 다른 답을 내놓을 수 있습니다. 이때 원래 AI 가 그 답을 배울 때 혼란을 겪지 않도록, "이 답은 조금 다른 시각에서 나온 거니까 점수를 조정해서 받아주자"라고 보정해주는 장치입니다.
- 장치 2: "적당한 흔들림을 찾는 자동 조절기" (Adaptive Noise Scheduler)
- 너무 많이 흔들면 AI 가 망가지고, 너무 적게 흔들면 효과가 없습니다. 이 장치는 AI 가 현재 얼마나 자신감을 가지고 있는지, 그리고 생성한 답들이 얼마나 다양한지를 실시간으로 체크해서 가장 적절한 흔들림의 강도를 자동으로 조절해 줍니다.
🏆 실험 결과: 무엇이 달라졌을까?
이 방법을 적용한 결과 (PSN-GRPO), 다음과 같은 놀라운 변화가 있었습니다.
- 대규모 시뮬레이션에서 압도적 승리:
- AI 가 한 번에 256 개의 답을 만들어서 그중 가장 좋은 걸 고르는 상황 (Large Sampling Budget) 에서, 기존 방법보다 훨씬 높은 정답률을 기록했습니다.
- 비유: 기존 AI 는 "이미 알고 있는 10 개의 길 중 하나"만 고르다가 지쳤다면, 새로운 AI 는 "새로운 256 개의 길"을 모두 시도해 보고 그중 진짜 보물 (정답) 을 찾아냈습니다.
- 다양한 사고방식 확보:
- AI 가 만들어내는 답들의 종류 (의미적 다양성) 가 훨씬 풍부해졌습니다. 똑같은 문제를 풀더라도 전혀 다른 접근법을 사용하게 된 것입니다.
- 긴 논리 흐름 유지:
- 수학 문제처럼 단계가 많은 복잡한 문제일수록 이 방법의 효과가 더 컸습니다. 논리가 끊어지지 않고 끝까지 이어지는 '일관된 탐험'이 가능해졌기 때문입니다.
📝 한 줄 요약
"AI 가 이미 알고 있는 길만 반복하지 않게 하려면, AI 의 '시각' 자체를 학습 전에 살짝 흔들어주어, 긴 여정 내내 일관된 새로운 관점으로 미로를 탐험하게 해야 한다."
이 연구는 AI 가 단순히 정답을 더 잘 맞추는 것을 넘어, 진정으로 새로운 아이디어와 해결책을 창출하는 능력을 키우는 중요한 디딤돌이 될 것으로 기대됩니다.
이런 논문을 받은편지함으로 받아보세요
관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.