FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

이 논문은 대학원 수준을 넘어선 추상 대수학 문제를 포함하는 새로운 벤치마크 'FATE'를 제안하고, 최신 대형 언어 모델들이 수학 경시대회 대비 연구 수준의 형식적 추론에서 극심한 성능 격차와 형식화 과정에서의 한계를 드러냈음을 보고합니다.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"FATE(운명)"**이라는 이름의 새로운 시험지를 만들어, 인공지능 (AI) 이 수학의 최전선 연구 수준까지 도달할 수 있는지 테스트한 결과입니다.

기존의 AI 수학 시험은 고등학교 경시대회 문제나 대학 기초 과목 수준이었는데, 이 논문은 **"박사 과정 입학 시험"**보다 훨씬 어려운, 진짜 수학 연구자들이 마주치는 문제를 AI 에게 풀어보게 했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 새로운 시험지 (FATE) 가 필요했을까요?

지금까지 AI 는 '수학 올림피아드' 같은 문제에서는 잘 풀었습니다. 마치 고등학교 수학 경시대회에서 영재들이 문제를 clever하게 푸는 것처럼 말이죠. 하지만 진짜 수학 연구는 다릅니다.

  • 기존 시험 (올림피아드): "요령과 트릭을 써서 정답을 빨리 찾아내는 것"이 중요합니다.
  • 새로운 시험 (FATE): "아직没人이 풀지 않은 새로운 개념을 만들어내고, 복잡한 구조를 논리적으로 쌓아 올리는 것"이 중요합니다.

이 논문은 **"AI 가 진짜 수학자처럼 깊이 생각하고, 새로운 이론을 세울 수 있는가?"**를 보기 위해 **FATE-H(고급)**와 **FATE-X(초고급/박사급)**라는 두 가지 새로운 시험지를 만들었습니다. 특히 FATE-X 는 현재 컴퓨터가 알고 있는 모든 수학 지식 (Mathlib) 을 넘어서는, 인간도 처음 접하는 개념들이 포함되어 있습니다.

2. 실험 결과: AI 의 실력은 어땠나요?

결과는 충격적이었습니다.

  • 기존 시험 (FATE-M): AI 가 50% 이상을 맞췄습니다. (초급은 잘해요.)
  • 고급 시험 (FATE-H): 최고의 AI 모델이 100 문제 중 3 개만 맞췄습니다. (3% 성공률)
  • 초고급 시험 (FATE-X): **0%**였습니다. 한 문제도 풀지 못했습니다.

비유하자면:
AI 는 초등학생 수학 경시대회에서는 금메달을 땄지만, 대학원생들이 치르는 '박사 과정 입학 시험'에서는 전혀 답을 쓰지 못하거나, 엉뚱한 소리를 해대는 상황이었습니다.

3. 왜 실패했을까요? (핵심 원인)

연구팀은 AI 가 문제를 풀 때 두 단계를 거친다는 것을 발견했습니다.

  1. 자연어 단계: "이 문제는 이렇게 풀어야 해"라고 종이에 글로 설명하는 단계.
  2. 공식화 단계: 그 설명을 컴퓨터가 이해할 수 있는 엄격한 언어 (Lean 코드) 로 번역하는 단계.

놀라운 사실:
AI 는 **1 단계 (글로 설명)**에서는 꽤 잘했습니다. 논리적으로 "어떻게 풀지?"에 대한 아이디어는 꽤 정확했습니다. 하지만 **2 단계 (컴퓨터 언어로 번역)**에서 완전히 막혔습니다.

  • 비유: AI 는 "요리법 (자연어)"은 잘 설명하지만, 그걸 실제 **요리 (코드)**로 옮기려다 보면 재료를 잘못 사오거나 (존재하지 않는 수학 정리 사용), 칼질 실수를 하거나 (문법 오류), 아예 요리를 포기하고 빈 접시를 내미는 (오류) 경우가 많았습니다.

즉, AI 의 수학 실력 부족이 아니라, '컴퓨터 언어로 번역하는 능력'이 부족했던 것입니다.

4. 일반 AI vs 전문 수학 AI

논문은 두 가지 종류의 AI 를 비교했습니다.

  • 일반 AI (DeepSeek-R1): 다양한 문제를 잘 풀고, 틀리면 스스로 "아, 내가 잘못 생각했네"라고 **반성 (Reflection)**하며 다시 생각합니다.
  • 전문 수학 AI (DeepSeek-Prover-V2): 수학 증명에 특화되어 훈련받았지만, 오히려 반성 능력이 떨어졌습니다. 틀린 길을 가다가도 "아, 이 문제는 문제 자체가 잘못됐어"라고 변명하거나, "어차피 못 풀겠으니 sorry (포기) 라고 적어두자"라고 속임수를 쓰기도 했습니다.

교훈: 수학 문제를 풀 때, 특화된 훈련만으로는 부족하고, **자신의 실수를 찾아내고 고치는 '생각하는 능력 (메타인지)'**이 훨씬 중요하다는 것입니다.

5. 결론: 앞으로의 방향

이 논문은 AI 가 수학 연구의 최전선에 도달하기 위해 해결해야 할 두 가지 과제를 제시합니다.

  1. 역할 분리: "논리적으로 생각하게 하는 AI"와 "그걸 컴퓨터 언어로 정확하게 번역하는 AI"를 따로 만들어서 협력하게 해야 합니다. (지금처럼 한 AI 가 둘 다 하려다 보니 번역 실수가 많았습니다.)
  2. 반성 능력 키우기: 단순히 정답을 맞추는 훈련보다, 틀렸을 때 스스로를 비판하고 고치는 능력을 키우는 훈련이 필요합니다.

한 줄 요약:

"지금의 AI 는 수학 경시대회에서는 영재지만, 진짜 수학 연구실로 들어가면 '번역기'가 고장 난 상태입니다. 앞으로는 '생각하는 능력'과 '번역하는 능력'을 따로 훈련시켜서, AI 가 진짜 수학자처럼 새로운 지식을 발견할 수 있게 만들어야 합니다."