Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

이 논문은 코드 에이전트가 기존 수학 문제를 더 복잡하고 해결 가능한 변형으로 진화시키는 다중 에이전트 프레임워크를 제안하며, 실험을 통해 코드 실행 환경이 확장 가능한 고난이도 수학 문제 생성 메커니즘으로 유효함을 입증했습니다.

Dadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"코딩을 잘하는 AI 가 수학 문제를 스스로 더 어렵고 흥미롭게 만들어낼 수 있을까?"**라는 질문에 답하는 연구입니다.

핵심 내용을 요리조리 설명해 드릴게요.

1. 배경: 왜 이 연구를 했나요?

지금까지 AI(대형 언어 모델) 는 수학 문제를 푸는 실력이 많이 늘었습니다. 하지만 AI 를 더 똑똑하게 가르치려면 '풀기 힘든 새로운 문제'가 계속 필요합니다.

  • 문제: 사람이 직접 어려운 수학 문제를 만들기는 너무 힘들고 시간이 많이 걸립니다.
  • 해결책: AI 가 스스로 문제를 만들어내면 어떨까? 하지만 AI 가 만든 문제가 엉터리일 수도 있으니, 검증이 필요합니다.

2. 해결 방법: "세 명의 요리사"가 함께 일합니다

저자들은 AI 가 문제를 만들고 검증하는 과정을 세 명의 역할이 나뉜 팀으로 만들었습니다.

  1. 진화 요리사 (Evolution Agent):

    • 역할: 기존에 있는 쉬운 수학 문제를 받아서, 더 어렵고 재미있는 버전으로 변형합니다.
    • 비유: 마치 "감자튀김"을 받아서 "고급 감자 스테이크"로 재창조하는 셰프입니다. 단순히 양만 늘리는 게 아니라, 맛과 식감을 완전히 바꿉니다.
    • 특기: 이 요리사는 파이썬 코드를 직접 실행해 봅니다. "이렇게 변형하면 정말 해답이 나올까? 숫자를 넣어보자!"라고 코드로 시뮬레이션을 돌리며 문제를 설계합니다.
  2. 안전 검사원 (Solvability Verification Agent):

    • 역할: 요리사가 만든 새 요리 (문제) 가 과연 먹을 수 있는지 (해결 가능한지) 확인합니다.
    • 비유: 위생 검사관입니다. "이 요리에 독이 섞였나? 재료 배합이 이상하지는 않나?"를 꼼꼼히 따져봅니다. 코드로 계산해 보니 답이 안 나온다면 "이건 먹으면 안 돼!"라고 폐기합니다.
  3. 맛 평가원 (Difficulty Verification Agent):

    • 역할: 새 요리가 진짜로 더 어려운지, 아니면 단순히 계산만 복잡한지 평가합니다.
    • 비유: 미식가입니다. "계산만 많이 해서 힘들게 한 거야, 아니면 진짜로 머리를 써야 하는 '아하!' 순간이 있는 거야?"를 판단합니다. 단순히 숫자를 크게 만든 건 점수를 안 줍니다.

3. 실험 결과: AI 는 성공할 수 있을까?

이 세 명의 AI 팀이 100 개의 기존 수학 문제를 가지고 실험을 해보았습니다.

  • 성공: AI 가 만든 문제 중 90% 이상이 논리적으로 완벽하고 해결 가능한 문제였습니다.
  • 난이도 상승: 기존에 AI 가 쉽게 풀던 문제들을, AI 가 변형한 후에는 AI 도 풀기 어려워졌습니다.
    • 예시: 원래는 70% 의 확률로 풀리던 문제가, 변형 후에는 60% 로 떨어졌습니다. 즉, AI 가 스스로 만든 문제가 AI 자신보다 더 어렵게 만들 수 있다는 뜻입니다.
  • 코드 실행의 힘: AI 가 단순히 글로만 생각한 게 아니라, 코드를 짜서 숫자를 계산해 보는 과정을 거쳤기 때문에, 훨씬 더 정교하고 구조적으로 복잡한 문제를 만들 수 있었습니다.

4. 한계점: 완벽하지는 않아요

  • 시간과 비용: 좋은 문제를 하나 만들려고 하면, AI 가 여러 번 실패하고 다시 시도해야 합니다. (성공하기까지 평균 3~6 번의 실패가 필요함)
  • 계산 비용: 이 과정을 위해 많은 컴퓨터 자원과 시간이 듭니다.

5. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"AI 가 스스로 학습할 수 있는 '고난이도 교재'를 직접 만들어낼 수 있다"**는 것을 증명했습니다.

  • 상징: 마치 AI 가 스스로 '수학 올림피아드' 문제를 출제하고, 그 문제를 풀면서 더 똑똑해지는 사이클을 만들었다는 뜻입니다.
  • 미래: 앞으로 AI 가 더 복잡한 추론 능력을 갖추려면, 사람이 일일이 문제를 만들어줄 필요 없이 AI 가 스스로 탐험하며 문제를 만들어내는 방식이 핵심이 될 것입니다.

한 줄 요약:

"코딩을 잘하는 AI 가 스스로 어려운 수학 문제를 만들어내고, 그 문제를 검증해서 더 똑똑한 AI 로 키우는 시스템을 개발했습니다."