UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

이 논문은 LLM 의 단일 시도 정확도 최적화가 응답 다양성을 저해할 수 있다는 문제를 해결하기 위해, 토큰 수준의 상호 정보 (Mutual Information) 보상을 GRPO 프레임워크에 도입하여 pass@k 성능을 향상시키는 'UpSkill'이라는 새로운 학습 방법을 제안합니다.

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: 똑같은 답만 외우는 학생 vs 다양한 전략을 가진 학생

상상해 보세요. 수학 시험을 치르는 두 명의 학생이 있습니다.

  1. 기존 AI (UpSkill 전): 이 학생은 문제를 풀 때 "가장 확실한 방법" 하나만 기억하고 있습니다. 시험지 5 장을 받아도, 5 장 모두 똑같은 방식으로 문제를 풀고 똑같은 답을 적어냅니다. 만약 그 '하나의 방법'이 틀렸다면, 5 장 모두 틀리게 됩니다. (이것을 논문에서는 다양성 부족이라고 합니다.)
  2. UpSkill 을 받은 AI: 이 학생은 "전략 1, 전략 2, 전략 3..."이라는 다양한 해법 카드를 가지고 있습니다. 시험지 5 장을 받으면, 각 카드에 따라 서로 다른 방식 (예: 대수학, 기하학, 그림 그리기 등) 으로 문제를 풉니다. 하나라도 맞는 방법이 있다면, 전체 시험은 합격입니다.

이 논문은 AI 가 단 하나의 정답만 쫓지 않고, 다양한 '전략 카드'를 스스로 개발하도록 훈련시키는 방법을 제안합니다.


🧩 핵심 아이디어: "비밀 번호 (z)"를 이용한 훈련

UpSkill 은 AI 에게 **비밀 번호 (z)**를 하나 더 줍니다.

  • 훈련 과정: AI 가 문제를 풀 때, "오늘은 '전략 1'로 풀어라", "다음엔 '전략 2'로 풀어라"라고 비밀 번호를 바꿔가며 훈련시킵니다.
  • 목표: AI 는 각 비밀 번호에 따라 서로 완전히 다른 생각의 흐름을 만들어내야 합니다. 만약 '전략 1'과 '전략 2'로 풀었을 때 나오는 답이 너무 비슷하다면, AI 는 벌점을 받습니다.
  • 결과: 훈련이 끝나면, 우리는 AI 에게 "이제 5 가지 다른 비밀 번호로 문제를 풀어봐"라고 요청할 수 있습니다. AI 는 5 가지 서로 다른 접근법으로 답을 내놓게 되고, 그중 하나라도 맞을 확률이 훨씬 높아집니다.

🏆 왜 이것이 중요할까요? (실제 효과)

논문에서는 이 방법을 수학 문제 (GSM8K) 와 코딩 문제에 적용해 보았습니다.

  • 기존 방식: AI 가 한 번에 정답을 맞출 확률 (pass@1) 은 그대로 유지하면서, 5 번 시도했을 때 적어도 한 번 정답을 맞출 확률 (pass@5) 이 약 3~9% 상승했습니다.
  • 비유: 시험을 5 번 치를 때, 기존에는 5 번 다 같은 실수를 해서 0 점이었지만, UpSkill 을 쓰면 5 번 중 한 번은 다른 방법으로 풀어서 100 점을 맞출 수 있게 된 것입니다.

🛠️ 어떻게 작동할까요? (간단한 원리)

논문은 이를 위해 **상호 정보량 (Mutual Information)**이라는 수학적 개념을 사용했습니다.

  • 상호 정보량: "비밀 번호 (z)"와 "AI 의 답변"이 얼마나 긴밀하게 연결되어 있는지를 측정합니다.
  • 훈련 목표: AI 가 "어떤 비밀 번호를 줘도 항상 같은 답을 내놓지 말고, 각 번호에 맞춰 독특한 답을 내놓아라"라고 가르칩니다.
  • 보상 시스템: AI 가 다양한 전략을 잘 만들어내면 점수를 주고, 너무 비슷하게 나오면 점수를 깎습니다.

📊 요약: 이 기술이 가져온 변화

  1. 다양성 확보: AI 가 같은 문제를 풀 때도 다양한 사고방식 (전략) 을 사용하게 됩니다.
  2. 성공률 향상: 한 번에 맞출 확률은 유지하면서, 여러 번 시도했을 때 성공할 확률이 크게 늘어납니다.
  3. 지능의 확장: AI 가 단순히 정답만 외우는 것이 아니라, 문제를 해결하는 다양한 '기술 (Skill)'을 습득하게 됩니다.

💡 결론

UpSkill 은 **"한 가지 길만 고집하지 말고, 여러 갈래의 길을 탐색하라"**는 교훈을 AI 에게 심어주는 기술입니다. 이는 AI 가 복잡한 문제를 풀 때, 하나의 실수로 모든 기회를 잃는 대신 여러 가지 시도로 성공 확률을 극대화할 수 있게 해줍니다. 마치 탐정이 사건을 해결할 때, 한 가지 단서만 믿지 않고 다양한 가설을 세워 해결책을 찾는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →