Reinforcement Learning with Conditional Expectation Reward

이 논문은 수학적 영역을 넘어 자유형 답변이 필요한 일반 추론 영역에서도 외부 검증기 없이 대규모 언어 모델을 활용하여 정답 생성에 대한 조건부 기댓값을 보상으로 제공하는 '조건부 기댓값 보상 (CER)'을 제안함으로써 강화 학습의 적용 범위를 확장하고 있음을 보여줍니다.

Changyi Xiao, Caijun Xu, Yixin Cao

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "정답을 맞출 때, 100 점만 주는 게 아니라 '어떤 점수'를 줄까?"

- 인공지능의 학습을 돕는 새로운 방법 'CER'에 대한 쉬운 설명 -

이 논문은 인공지능 (LLM) 이 문제를 풀 때, "정답이 맞았는지 틀렸는지"를 어떻게 판단하느냐에 대한 혁신적인 아이디어를 제시합니다.

기존의 방식과 새로운 방식 (CER) 을 일상적인 비유로 설명해 드릴게요.


1. 기존 방식의 문제점: "오직 정답만 인정하는 엄격한 선생님"

지금까지 인공지능을 수학이나 논리 문제에서 가르칠 때는 **'규칙 기반의 심판 (Verifier)'**을 썼습니다.

  • 상황: 학생이 문제를 풀어서 답을 냈습니다.
  • 심판의 역할: "정답이 '2'인데, 네 답이 '2'와 완전히 똑같으면 100 점, 조금이라도 다르면 0 점!"이라고 말합니다.
  • 문제점:
    • 수학 문제: 정답이 '2'라면 '2'만 맞고, '2.0'이나 '두'는 틀린 것으로 처리됩니다. (규칙이 명확해서 괜찮음)
    • 일반적인 문제 (과학, 경제 등): 정답이 "아니다"인데, 학생이 "아니요, 양자 물리학은 결정론적이지 않습니다"라고 길게 설명하면? 심판은 "문자열이 다르니 0 점!"이라고 합니다.
    • 결과: 학생은 "아예 틀린 답"과 "의미는 맞는데 표현이 다른 답"을 구분받지 못해, "어떻게 해야 할지 모르겠다"며 학습이 멈춥니다.

2. 새로운 방법 (CER): "스스로를 믿어주는 내면의 선생님"

저자들은 이 문제를 해결하기 위해 **'조건부 기대 보상 (CER)'**이라는 새로운 방법을 제안했습니다.
이 방법은 외부 심판관이나 복잡한 규칙을 쓰지 않고, 인공지능 스스로가 "내가 이 답을 냈을 때, 정답을 다시 낼 확률이 얼마나 될까?"를 계산하게 합니다.

🍕 비유: "피자 주문하기"

  • 기존 방식 (이진법):

    • 당신이 "페퍼로니 피자"를 주문했습니다.
    • 가게 주인 (규칙) 이 "정답은 '페퍼로니'입니다. 당신이 말한 게 '페퍼로니'와 완벽하게 일치하면 100 점, '페페로니'나 '페퍼로니 피자'면 0 점!"이라고 합니다.
    • 결과: "아, 내가 조금 틀렸구나"라는 피드백이 없어서 다음엔 무작정 다른 걸 시도하거나 포기합니다.
  • 새로운 방식 (CER):

    • 당신이 "페퍼로니 피자"를 주문했습니다.
    • 가게 주인 (인공지능) 이 스스로 생각합니다.
      • "내가 '페퍼로니 피자'라고 말했을 때, 내가 다시 '정답인 페퍼로니'를 말할 확률은 얼마나 될까?"
      • "내가 '페페로니'라고 했다면, 정답을 다시 말할 확률은 얼마나 낮을까?"
    • 결과:
      • "페퍼로니 피자"라고 했다면 → 90 점 (정답과 매우 비슷하니까)
      • "페페로니"라고 했다면 → 40 점 (약간 비슷하니까)
      • "초콜릿 피자"라고 했다면 → 0 점 (완전히 다르니까)
    • 효과: 학생은 "아, 90 점이면 거의 맞았구나, 조금만 고치면 돼!"라고 구체적인 피드백을 받으며 더 잘 배우게 됩니다.

3. CER 의 핵심 장점

  1. 외부 도구가 필요 없음: 별도의 심판 프로그램이나 규칙을 만들 필요가 없습니다. 인공지능이 스스로를 평가합니다.
  2. 부드러운 점수 (Soft Reward): 0 점 아니면 100 점이 아니라, 어느 정도 맞았는지를 점수로 알려줍니다. 이는 "의미는 맞는데 표현이 다른" 답을 인정해 줍니다.
  3. 모든 분야에 적용 가능: 수학처럼 정답이 딱 하나인 곳뿐만 아니라, 과학, 경제, 철학처럼 답이 다양하게 표현될 수 있는 분야에서도 잘 작동합니다.

4. 실험 결과: "어디서나 잘한다"

연구팀은 이 방법을 수학 문제와 일반 지식 문제 (물리, 화학, 금융 등) 에 모두 적용해 보았습니다.

  • 수학 문제: 기존에 규칙으로만 하던 방법과 비슷하거나 더 좋은 성적을 냈습니다.
  • 일반 문제: 기존 방법들은 거의 작동하지 않았지만, CER 는 압도적인 성능을 보여주었습니다.
  • 결론: CER 는 인공지능이 어떤 분야의 문제를 풀 때도, 스스로 학습할 수 있게 도와주는 만능 열쇠가 될 수 있습니다.

📝 한 줄 요약

"정답이 맞았는지 틀렸는지 0 과 1 로만 판단하던 옛날 방식을 버리고, 인공지능 스스로 "내 답이 정답과 얼마나 닮았는지"를 점수로 매겨주게 함으로써, 더 똑똑하고 유연하게 학습하게 만든 새로운 방법입니다."

이 기술이 발전하면, 인공지능이 수학뿐만 아니라 우리가 일상에서 마주치는 복잡한 질문들 (예: "왜 하늘은 파란가?", "주식 시장이 왜 떨어졌을까?") 에 대해서도 더 깊이 있고 정확한 답변을 줄 수 있게 될 것입니다.