Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

이 논문은 강화학습 후 학습을 거친 대형 추론 모델에서 발생하는 탐색 붕괴 문제를 해결하기 위해 추가 학습 없이 중간 계층의 엔트로피를 활용하는 '잠재적 탐색 디코딩 (LED)' 전략을 제안하여 추론 성능을 효과적으로 향상시킨다는 내용을 담고 있습니다.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "잠재된 호기심"을 깨우는 마법: 대형 추론 모델의 새로운 해법

이 논문은 최근 인공지능(AI)이 수학이나 코딩 같은 어려운 문제를 풀 때, **"왜 더 많이 시도해본다고 해서 정답을 찾을 확률이 오르지 않는지"**에 대한 놀라운 발견과 그 해결책을 제시합니다.

비유를 들어 쉽게 설명해 드릴게요.


1. 문제: "완벽한 학생"이 된 AI 의 함정

최근의 AI(대형 추론 모델) 들은 **강화 학습 (RL)**이라는 훈련을 통해 아주 똑똑해졌습니다. 마치 시험을 볼 때 "정답만 맞으면 점수를 주고, 틀리면 감점"하는 방식으로 훈련받은 거죠.

이 훈련 덕분에 AI 는 **한 번에 정답을 맞출 확률 (Pass@1)**이 매우 높아졌습니다. 하지만 여기서 뜻밖의 문제가 생겼습니다.

  • 과거의 AI: "어떤 문제를 풀까?"라고 생각할 때, 다양한 가능성을 열어두고 여러 가지 시도를 했습니다. (온도 조절을 높이면 더 창의적으로 여러 답을 냈죠.)
  • 현재의 AI: 훈련을 너무 잘 받아서, 자신의 첫 번째 생각이 100% 맞다고 확신하게 되었습니다.
    • 마치 "이 문제는 내가 이미 다 알고 있어! 다른 생각은 필요 없어!"라고 외치는 과신 (Overconfidence) 상태가 된 것입니다.
    • 그래서 "다른 답도 한번 찾아봐"라고 명령해도 (온도를 높여도), AI 는 여전히 같은 생각만 반복하며 실패합니다. 이를 논문에서는 **'탐험의 붕괴 (Exploration Collapse)'**라고 부릅니다.

2. 발견: "중간 단계"에 숨겨진 보물

연구진은 AI 의 두뇌 구조를 자세히 들여다보며 흥미로운 사실을 발견했습니다.

  • 최종 단계 (마지막 층): AI 가 최종적으로 내뱉는 생각은 너무 확신에 차서 단조롭고 (엔트로피가 낮음), 다른 가능성을 전혀 고려하지 않습니다.
  • 중간 단계 (중간 층들): 하지만 AI 가 생각의 과정을 거치는 중간 단계에서는 여전히 **"아직 확실하지 않아, 다른 방법도 있을까?"**라는 호기심과 불확실성이 살아있습니다.

비유:
AI 가 문제를 풀 때, 마지막 결론은 "정답은 A 야!"라고 단호하게 외치지만, 생각하는 과정 중반에는 "A 일 수도 있고, B 일 수도 있고, C 일 수도 있겠네?"라고 다양한 가능성을 고민하고 있습니다.
문제는 AI 가 이 중간의 호기심을 무시하고 마지막 결론만 믿고 있다는 점입니다.

3. 해결책: LED(잠재적 탐험 해독)

이 문제를 해결하기 위해 연구진은 **LED(Latent Exploration Decoding)**라는 새로운 방법을 만들었습니다.

LED 가 어떻게 작동하나요?

  1. 중간 단계의 목소리를 듣기: AI 가 최종 결론을 내기 전, 중간 단계의 생각들을 모두 모아봅니다.
  2. 가장 호기심 많은 순간 찾기: 중간 단계들 중에서 **"가장 다양한 가능성을 고민하고 있는 순간 (엔트로피가 가장 높은 순간)"**을 찾아냅니다.
  3. 스마트한 선택:
    • AI 가 이미 확신하는 쉬운 문제라면, 그냥 최종 결론을 따릅니다 (효율성).
    • 하지만 AI 가 헷갈려 하거나 어려운 문제라면, 중간 단계에서 찾은 가장 다양한 가능성을 선택해 새로운 길로 탐험합니다 (창의성).

창의적인 비유:
이 방법은 마치 등산과 같습니다.

  • 기존 AI: 정상에 거의 다 왔다고 믿고, 한 가지 길만 고집하며 넘어질 위험이 큽니다.
  • LED: "아직 정상인가? 아니면 다른 길이 있을까?"라고 중간 지대에서 잠시 멈춰서 지도를 다시 확인하고, 가장 유망한 여러 길을 동시에 탐색한 후 가장 좋은 길을 선택합니다.

4. 결과: 더 적은 비용으로 더 많은 성공

이 방법을 적용한 결과, 놀라운 성과가 나왔습니다.

  • 정답률 상승: 한 번에 맞출 확률도, 여러 번 시도했을 때 맞출 확률도 모두 향상되었습니다.
  • 비용 절감: AI 를 다시 훈련시키거나 복잡한 장비를 추가할 필요가 없습니다. 단순히 생각하는 방식을 조금만 바꿔주면 됩니다.
  • 실제 효과: 수학 문제나 코딩 과제에서 AI 가 더 유연하게 문제를 해결하게 되었습니다.

📝 한 줄 요약

**"AI 가 너무 자신만만해져서 다른 가능성을 잃어버렸을 때, AI 가 생각하던 '중간 과정'의 호기심을 다시 꺼내들여 더 똑똑하게 문제를 해결하게 해주는 방법"**입니다.

이 기술은 AI 가 단순히 정답만 외우는 기계가 아니라, 진짜처럼 고민하고 탐험하는 지능을 되찾는 데 중요한 열쇠가 될 것입니다.