Entropy-Preserving Reinforcement Learning

이 논문은 정책 경사 알고리즘이 학습 과정에서 엔트로피가 감소하여 탐색 다양성이 저하되는 문제를 지적하고, REPO 와 ADAPO 와 같은 엔트로피 보존 메커니즘을 제안하여 학습 중 다양성을 유지함으로써 최종 성능과 새로운 환경에서의 연속 학습 능력을 향상시키는 방법을 제시합니다.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "똑똑하지만 고집 센 학생" vs "호기심 많은 탐험가"

AI 가 문제를 풀 때의 상황을 한 학생이 시험을 준비하는 상황으로 상상해 보세요.

  1. 기존 방식 (GRPO 등): "정답만 외우는 고집 센 학생"

    • 이 학생은 문제를 풀 때, 처음에 맞춘 정답 하나만 계속 반복해서 외웁니다.
    • "아, 이 문제 답은 A 가 맞구나! A 만 외우자!"라고 생각해서, B 나 C 같은 다른 가능성 있는 답은 아예 생각하지 않게 됩니다.
    • 결과: 아주 간단한 문제는 완벽하게 맞출 수 있지만, 조금만 문제가 바뀌거나 새로운 상황이 나오면 당황해서 아무것도 못 풉니다. (이걸 논문에서는 엔트로피 붕괴라고 합니다. 즉, 사고의 다양성이 사라진 상태죠.)
  2. 이 논문의 제안 (Entropy-Preserving RL): "호기심 많은 탐험가"

    • 이 학생은 "A 가 맞을 수도 있지만, B 나 C 도 한번 시도해 볼까?"라고 생각합니다.
    • 비록 A 가 정답일 확률이 높더라도, B 나 C 를 시도해 보는 과정에서 더 창의적이고 강력한 해결책을 찾아냅니다.
    • 핵심: 이 논문은 AI 가 학습하는 내내 **"너무 한쪽으로 치우치지 않게, 다양한 시도를 하도록 조절해 주는 장치"**를 만들었습니다.

🔍 이 논문이 발견한 두 가지 중요한 사실

1. "숫자 계산 실수"가 사고를 멈추게 했다 (수학적 정밀도 문제)

논문은 흥미로운 사실을 발견했습니다. 컴퓨터가 숫자를 계산할 때 사용하는 방식 (BF16 이라는 반정밀도) 때문에, AI 가 "이건 틀렸어"라고 판단해야 할 때 오히려 "이건 맞았어"라고 잘못 계산하는 경우가 많았다는 것입니다.

  • 비유: 마치 학생이 시험지를 채점할 때, 연필로 쓴 글씨가 너무 흐릿해서 (정밀도 부족) "O"를 "X"로 잘못 보거나, 반대로 "X"를 "O"로 보는 것과 같습니다.
  • 해결: 이 논문은 계산 방식을 더 정확하게 (FP16) 바꾸고, 중요한 숫자 계산 부분을 다시 확인하게 함으로써 AI 가 올바른 판단을 내리게 했습니다.

2. "다양성 조절기"를 달아주자 (REPO 와 ADAPO)

기존 AI 는 학습이 진행될수록 자연스럽게 "정답 하나"만 고집하게 되는데, 이 논문은 두 가지 새로운 장치를 제안합니다.

  • REPO (규제된 엔트로피 최적화):

    • 비유: 선생님이 학생에게 "너가 자주 쓰는 A 방법 말고, 드물게 쓰는 B 방법도 한번 써봐. 그걸로 점수를 더 줄게!"라고 장려하는 것과 같습니다.
    • AI 가 자주 쓰는 답 (높은 확률) 에는 점수를 덜 주고, 드물게 쓰는 답 (낮은 확률) 에는 점수를 더 주어, AI 가 다양한 길을 찾도록 유도합니다.
  • ADAPO (적응형 비대칭 클리핑):

    • 비유: 학생이 너무 자신만만해져서 (엔트로피가 너무 낮아져) 다른 답을 안 보려고 하면, 선생님이 "조금 더 넓게 생각해보렴"이라고 말려서 제한을 풀고, 반대로 너무 헷갈려서 (엔트로피가 너무 높아져) 엉뚱한 답만 고르면 "조금 더 집중해"라고 제한을 줍니다.
    • AI 의 상태를 실시간으로 보고, 다양성을 유지할 수 있게 자동으로 조절해 줍니다.

🏆 실제 성과: "왜 이 방법이 좋은가?"

이 방법들을 적용한 AI 는 다음과 같은 놀라운 결과를 보였습니다.

  1. 더 높은 점수: 단순히 정답을 외우는 게 아니라, 다양한 시도를 통해 더 어려운 문제 (수학 문제나 복잡한 앱 사용) 를 더 잘 풀었습니다.
  2. 새로운 환경 적응력: 한 번 배운 것을 잊어버리지 않고, 완전히 새로운 환경에서도 다시 잘 학습할 수 있었습니다.
    • 비유: "고집 센 학생"은 배운 수학 문제만 풀다가, 새로운 과학 문제를 만나면 당황합니다. 하지만 "호기심 많은 탐험가"는 다양한 시도를 해본 경험 덕분에, 새로운 과학 문제도 유연하게 해결합니다.

💡 한 줄 요약

"AI 가 학습할 때 너무 빨리 정답 하나만 고집하게 되면, 새로운 문제를 못 풉니다. 이 논문은 AI 가 학습 내내 다양한 가능성을 열어두고, 실수하지 않도록 계산 방식을 고쳐주어, 더 똑똑하고 유연한 AI 를 만드는 방법을 제시했습니다."

이 연구는 AI 가 단순히 "정답을 맞추는 기계"가 아니라, "창의적으로 문제를 해결하는 파트너"가 되기 위한 중요한 발걸음입니다.