FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

이 논문은 대학원 수준의 수학 정리를 Lean 4 로 형식적으로 검증 가능한지 평가하기 위해 'FormalProofBench'라는 벤치마크를 제안하고, 최첨단 AI 모델들이 이 작업에서 33.5% 의 정확도를 보이며 도구 사용 및 실패 모드 등에 대한 심층 분석을 제공함을 보여줍니다.

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

게시일 2026-03-31
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 이 실험의 핵심: "FormalProofBench" (공식 증명 벤치마크)

기존의 수학 시험 (예: MATH, IMO) 은 AI 가 자연어 (영어 등) 로 답을 쓰면, 사람이나 다른 AI 가 "아, 논리적으로 그럴듯하네"라고 채점했습니다. 하지만 AI 가 거짓말을 하거나, 중요한 경우를 빼먹거나, 존재하지 않는 공리를 인용하는 실수를 해도 사람이 눈치채기 어렵습니다. 마치 학생이 "그냥 그렇게 된 거예요"라고 말하면 선생님이 "아, 그렇구나"라고 넘어가는 것과 비슷하죠.

이 논문은 그런 문제를 해결하기 위해 Lean 4라는 '수학용 컴퓨터 언어'를 사용했습니다.

  • 비유: AI 가 답을 쓸 때, 사람이 읽는 글이 아니라 컴퓨터가 직접 실행해 볼 수 있는 코드로 답을 써야 합니다.
  • 결과: 컴퓨터가 "이 코드는 오류가 있다"고 하면 바로 틀린 것이고, "컴파일 (실행) 성공"이 되어야만 정답입니다. 즉, **거짓말이나 뻔뻔한 추론이 통하지 않는 '완벽한 시험'**을 만든 것입니다.

2. 시험 문제의 난이도: "대학원생도 울고 갈 문제들"

이 벤치마크는 고등학교 수학 경시대회 수준이 아닙니다.

  • 문제 출처: 대학원 진학 시험 (Qualifying Exams) 과 전문 수학 교재에서 가져왔습니다.
  • 주제: 해석학, 대수학, 확률론, 논리학 등 매우 추상적이고 어려운 분야들입니다.
  • 난이도: 수학 전공 박사 과정 학생들도 풀기 힘든 문제들입니다.

3. 실험 방법: "AI 의 40 번의 기회"

AI 에게 문제를 주고 한 번에 답을 내게 하지 않았습니다. 대신 **40 번의 기회 (Turn)**를 주었습니다.

  • 도구 사용: AI 는 두 가지 도구를 쓸 수 있습니다.
    1. Lean Loogle (검색): 수학 도서관 (Mathlib) 에서 필요한 공식을 검색합니다.
    2. Lean Executor (실행): 쓴 코드를 컴퓨터에 돌려보고 "오류가 났다"는 피드백을 받습니다.
  • 과정: AI 는 코드를 쓰고, 오류가 나면 수정하고, 다시 검색하고, 다시 실행하는 과정을 반복하며 40 번 안에 정답을 찾아야 합니다.

4. 주요 결과: "AI 는 아직 수학자처럼 완벽하지 않다"

최고급 AI 모델들을 시험에 참여시켰는데, 결과는 다음과 같았습니다.

  • 최고 점수: 33.5% (Anthropic 의 Claude Opus 4.5 모델이 1 위).
    • 즉, 100 개의 문제 중 33 개 정도만 완벽하게 증명했습니다. 나머지 67 개는 실패했습니다.
  • 점수 하락: 1 위 모델 다음으로 점수가 급격히 떨어졌습니다.
  • 결론: AI 는 수학 문제를 풀 때 '감'이나 '추측'은 잘하지만, **엄격한 논리 검증 (컴퓨터가 통과하는 증명)**을 해내는 능력은 아직 인간 수학자나 대학원생 수준에 미치지 못합니다.

5. 흥미로운 발견: "검색보다 실행이 중요했다"

가장 흥미로운 점은 성공한 AI 들의 행동 패턴이었습니다.

  • 실패한 패턴: 계속 '검색 (Loogle)'만 하다가, 없는 공리를 찾아 헤매거나 막히면 멈춰버렸습니다. (지나친 검색)
  • 성공한 패턴: 일단 코드를 **실행 (Run Code)**해보고, 컴퓨터가 주는 "오류 메시지"를 보고 수정하는 과정을 반복했습니다.
  • 비유: 수학 문제를 풀 때, 책 (검색) 을 계속 뒤적이는 것보다 연필로 직접 계산을 해보고 (실행), 틀리면 지우개로 고치는 과정을 반복하는 학생이 더 잘 맞춘다는 뜻입니다.

6. 이 연구의 의미: "수학의 새로운 파트너"

이 연구는 AI 가 수학 분야에서 실제 연구자 (수학자) 의 도구로 쓰일 수 있는지 확인하는 첫걸음입니다.

  • 현재: AI 가 증명할 수 있는 문제는 아직 많지 않습니다.
  • 미래: 이 벤치마크를 통해 AI 의 능력을 측정하고 개선하면, 언젠가 AI 가 수학자가 "이 증명 맞을까?"라고 의심할 때, AI 가 "컴퓨터가 검증했으니 100% 맞습니다"라고 말해주는 날이 올 것입니다.

요약

이 논문은 **"AI 가 수학 문제를 풀 때, 사람이 읽는 글이 아니라 컴퓨터가 검증하는 코드로 답을 내게 했더니, 최고의 AI 도 100 점 만점에 33 점 정도밖에 못 받았다"**는 사실을 밝혔습니다. 하지만 AI 가 **컴퓨터 오류 메시지를 보고 스스로 수정하는 과정 (실행과 반복)**을 잘할수록 성적이 좋아진다는 귀중한 교훈을 남겼습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →