GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

이 논문은 고정된 문제 세트의 한계를 극복하고 증명 능력의 진화에 맞춰 난이도를 자동으로 조절하는 적대적 학습 루프를 통해 형식적 정립 증명 성능을 향상시킨 새로운 강화 학습 프레임워크 'GAR'를 제안합니다.

Ruida Wang, Jiarui Yao, Rui Pan, Shizhe Diao, Tong Zhang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

GAR: 수학 천재와 문제 출제자의 '치열한 경쟁'을 통한 학습법

이 논문은 **수학 증명 (Theorem Proving)**을 하는 인공지능 (AI) 을 더 똑똑하게 만드는 새로운 방법인 GAR을 소개합니다.

기존의 방식은 AI 가 이미 정해진 문제집만 풀게 했기 때문에, AI 가 실력이 늘어도 문제가 너무 쉬워져서 더 이상 발전하지 못하거나, 반대로 너무 어려워서 포기하는 경우가 많았습니다.

이 문제를 해결하기 위해 제안된 **GAR(Generative Adversarial Reinforcement Learning)**은 마치 스승과 제자, 혹은 문제 출제자와 수험생이 서로 경쟁하며 함께 성장하는 시스템을 상상하면 쉽습니다.


🎯 핵심 아이디어: "너무 쉬우면 안 되고, 너무 어렵지도 않아야 해"

기존의 AI 학습은 고정된 문제집을 풀게 했습니다.

  • 문제점: AI 가 실력이 늘어도 문제집은 그대로라, AI 는 쉬운 문제를 반복해서 풀며 시간을 낭비하거나, 갑자기 난이도가 높은 문제를 만나서 막히게 됩니다.

GAR은 이 문제를 두 명의 AI 가 서로 경쟁하게 함으로써 해결합니다.

  1. 문제 출제자 (Statement Fuser): 기존 문제들을 섞어서 새롭고 조금 더 어려운 문제를 만듭니다.
  2. 해결사 (Prover): 만들어진 문제를 풀어 증명합니다.

이 두 AI 는 서로 **적대적 (Adversarial)**인 관계를 맺습니다.

  • 출제자는 "해결사가 풀 수 있을 것 같은데, 조금만 더 어렵게 만들면 어떨까?"라고 문제를 변형합니다. (너무 쉬우면 점수를 못 받음)
  • 해결사는 "이 어려운 문제를 어떻게든 풀어서 점수를 받아야지!"라고 노력합니다. (너무 어려워서 못 풀면 점수를 못 받음)

이 과정을 반복하면, 문제 출제자는 해결사의 실력에 맞춰 난이도를 자동으로 조절하게 되고, 해결사는 그 난이도에 맞춰 실력을 키워갑니다. 이를 **'암묵적인 커리큘럼 학습'**이라고 부릅니다.


🏗️ GAR 의 작동 원리: 3 단계 과정

이 시스템은 두 가지 주요 단계가 반복됩니다.

1 단계: 문제 만들기 (Generation Stage)

  • 문제 융합 (Statement Fusion): 기존에 있던 쉬운 수학 문제 두 개를 가져와서, 하나의 더 복잡한 문제로 합칩니다.
    • 비유: "삼각형의 넓이 구하기"와 "속도 계산하기"라는 쉬운 문제를 합쳐서 "삼각형 모양의 땅에서 달리는 속도를 구하는 문제"를 만드는 것입니다.
  • 자동 형식화: 이 자연어 문제를 AI 가 이해할 수 있는 **Lean(린)**이라는 컴퓨터 언어로 번역합니다.
  • 시도: 해결사 AI 가 이 문제를 풀어보려고 여러 번 시도합니다.

2 단계: 경쟁과 보상 (Adversarial RL Stage)

  • 출제자의 보상: 해결사가 문제를 풀지 못하게 만들었으면 (하지만 아예 불가능한 문제는 아님) 출제자는 보상을 받습니다. 즉, **"적당한 난이도"**를 유지하는 것이 목표입니다.
  • 해결사의 보상: 해결사가 어려운 문제를 성공적으로 증명하면 보상을 받습니다.
  • 치트키 방지: 만약 해결사가 문제를 너무 쉽게 변형해서 (예: "증명할 게 뭐였지? 그냥 1+1=2 라 하자") 쉽게 푼다면, 출제자와 해결사 모두 벌점을 받습니다.

📊 실제 성과: 얼마나 잘해냈을까?

이 방법을 적용한 결과, 기존에 가장 잘하던 AI 모델들 (Goedel-Prover, DeepSeek-Prover) 보다 더 좋은 성적을 냈습니다.

  • MiniF2F-Test (중고등학교 수학 경시대회 수준): 평균적으로 4.2% 더 많은 문제를 성공적으로 증명했습니다.
  • ProofNet-Test (대학 수준 수학): DeepSeek-Prover 모델의 성공률이 **22.58% 에서 25.81%**로 크게 향상되었습니다.

이는 기존에 RL(강화학습) 을 많이 받아서 이미 한계에 도달한 모델들도, GAR 를 통해 더 어려운 문제를 마주하며 다시 성장할 수 있음을 보여줍니다.


💡 요약: 왜 이 방법이 특별한가?

기존의 AI 학습은 **"고정된 운동장"**에서 달리는 것과 같았습니다. 실력이 늘어도 운동장은 그대로라 더 이상 빨라질 수 없었습니다.

하지만 GAR은 **"스마트한 코치"**가 있습니다.

  • 코치 (문제 출제자) 는 선수 (해결사) 의 실력을 실시간으로 파악합니다.
  • 선수가 쉬워지면 코치는 바로 난이도를 높인 훈련을 시킵니다.
  • 선수가 너무 힘들어하면 코치는 조금만 더 쉬운 훈련으로 조절합니다.

이렇게 선수와 코치가 서로 경쟁하며 함께 성장하는 시스템 덕분에, AI 는 더 복잡하고 어려운 수학 증명 문제도 해결할 수 있게 되었습니다. 이 기술은 수학뿐만 아니라, 복잡한 추론이 필요한 다른 분야에서도 큰 잠재력을 가지고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →