CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning

이 논문은 수학 문제 해결 능력과 실제 개념 이해 사이의 간극을 해소하기 위해, 검증 가능한 개념 설명을 감독 신호로 활용하여 추론 경로를 강화하는 새로운 RL 프레임워크인 CORE 를 제안합니다.

Zijun Gao, Zhikun Xu, Xiao Ye, Ben Zhou

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 1. 문제: "공식 외우는 것" vs "원리 이해하기"

지금까지의 AI 는 수학 문제를 풀 때 아주 똑똑해 보였습니다. 하지만 그 실체는 **'패턴 암기'**에 가까웠습니다.

  • 비유: Imagine (상상해 보세요) 어떤 학생이 수학 시험을 볼 때, 문제 지문을 읽자마자 "아, 이거 '피타고라스 정리' 문제구나!"라고 외운 공식만 대입해서 정답을 맞춥니다.
  • 문제점: 하지만 문제의 숫자나 순서만 살짝 바꿔도 (예: "삼각형의 변의 길이가 3, 4, 5 가 아니라 5, 12, 13 이라면?") 그 학생은 당황해서 틀립니다. 공식 (개념) 을 외웠을 뿐, 왜 그 공식이 쓰이는지 이해하지 못하기 때문입니다.

저자들은 AI 가 **"정의를 입으로 읊조릴 수는 있어도 (기억), 실제 문제에 적용하지는 못한다 (이해)"**는 치명적인 간극을 발견했습니다.

💡 2. 해결책: CORE (개념 중심 강화 학습)

이 간극을 메우기 위해 개발한 CORE는 AI 에게 "정답만 맞으면 돼"가 아니라 **"이 문제를 풀 때 어떤 개념을 사용했는지 보여줘"**라고 가르치는 새로운 훈련 방식입니다.

세 가지 핵심 비유로 설명해 드릴게요.

① 교과서와 퀴즈 만들기 (데이터 준비)

  • 비유: AI 에게 무작위 문제집을 주는 대신, 수학 교과서를 가져와서 "이 장은 '선형 독립'이라는 개념을 배우는 거야"라고 명확히 짚어주고, 그 개념과 딱 맞는 연습 문제를 준비합니다.
  • 효과: AI 가 문제와 개념을 명확하게 연결하도록 기초를 다집니다.

② "개념 힌트"를 주입하는 훈련 (CORE-CR)

  • 비유: AI 가 문제를 풀다가 막히면, AI 가 스스로 "아, 내가 이 개념을 잊어버렸구나!"라고 깨닫게 합니다. 이때 AI 가 틀린 답을 고르면, "이 문제는 '피타고라스 정리'를 써야 해!"라고 짧게 힌트를 주고 다시 풀게 합니다.
  • 핵심: AI 가 틀렸을 때, 단순히 "틀렸어"라고 점수만 깎는 게 아니라, 올바른 개념을 떠올리게 하는 힌트를 주입해서 다시 생각하게 만듭니다. 마치 선생님이 "네가 그 공식을 썼다면 왜 안 될까? 이 공식은 언제 쓰는 거지?"라고 질문하며 유도하는 것과 같습니다.

③ "개념을 생각한 사고 과정"을 모방하게 하기 (CORE-KL)

  • 비유: AI 가 개념을 모른 채 푼 사고 과정과, 개념을 알고 푼 사고 과정을 비교합니다.
  • 핵심: AI 에게 "네가 원래 푼 방식보다, 개념을 알고 푼 방식이 훨씬 더 논리적이야. 너의 뇌 (모델) 가 그 논리적인 사고 과정을 따라가도록 훈련해라"라고 가르칩니다. 이는 AI 가 개념을 자연스럽게 떠올리는 습관을 들게 합니다.

🚀 3. 결과: 진짜 실력이 늘었습니다

이 훈련을 받은 AI 는 다음과 같은 변화를 보였습니다.

  1. 유연한 사고: 문제의 숫자나 순서가 바뀌어도 당황하지 않고, **"아, 이건 여전히 '피타고라스 정리'가 필요한 상황이구나"**라고 판단해 정답을 맞춥니다.
  2. 다른 문제에도 적용: 교과서에서 본 적이 없는 새로운 유형의 수학 문제 (외부 벤치마크) 를 풀 때도 훨씬 잘합니다.
  3. 가짜 지시어에 속지 않음: 문제 지문에 헷갈리게 하는 말 (예: "이건 삼각형이 아니야"라고 속이는 말) 이 있어도, 핵심 개념을 보고 진짜 문제를 파악합니다.

🌟 요약

이 논문은 **"AI 에게 정답을 맞히는 법을 가르치는 게 아니라, 수학적 개념을 이해하고 적용하는 법을 가르쳐야 진짜 똑똑해진다"**는 것을 증명했습니다.

마치 주사위 게임에서 운으로 이기는 것을 넘어, 수학의 원리를 이해하여 어떤 상황에서도 이길 수 있는 전략을 세우게 만든 것과 같습니다. CORE 는 AI 가 단순히 "패턴을 반복하는 기계"가 아니라, "진짜 이해하는 지능"으로 성장하게 하는 중요한 디딤돌이 됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →