FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Each language version is independently generated for its own context, not a direct translation.

1. 이 실험의 핵심: "FormalProofBench" (공식 증명 벤치마크)

기존의 수학 시험 (예: MATH, IMO) 은 AI 가 자연어 (영어 등) 로 답을 쓰면, 사람이나 다른 AI 가 "아, 논리적으로 그럴듯하네"라고 채점했습니다. 하지만 AI 가 거짓말을 하거나, 중요한 경우를 빼먹거나, 존재하지 않는 공리를 인용하는 실수를 해도 사람이 눈치채기 어렵습니다. 마치 학생이 "그냥 그렇게 된 거예요"라고 말하면 선생님이 "아, 그렇구나"라고 넘어가는 것과 비슷하죠.

이 논문은 그런 문제를 해결하기 위해 Lean 4라는 '수학용 컴퓨터 언어'를 사용했습니다.

비유: AI 가 답을 쓸 때, 사람이 읽는 글이 아니라 컴퓨터가 직접 실행해 볼 수 있는 코드로 답을 써야 합니다.
결과: 컴퓨터가 "이 코드는 오류가 있다"고 하면 바로 틀린 것이고, "컴파일 (실행) 성공"이 되어야만 정답입니다. 즉, **거짓말이나 뻔뻔한 추론이 통하지 않는 '완벽한 시험'**을 만든 것입니다.

2. 시험 문제의 난이도: "대학원생도 울고 갈 문제들"

이 벤치마크는 고등학교 수학 경시대회 수준이 아닙니다.

문제 출처: 대학원 진학 시험 (Qualifying Exams) 과 전문 수학 교재에서 가져왔습니다.
주제: 해석학, 대수학, 확률론, 논리학 등 매우 추상적이고 어려운 분야들입니다.
난이도: 수학 전공 박사 과정 학생들도 풀기 힘든 문제들입니다.

3. 실험 방법: "AI 의 40 번의 기회"

AI 에게 문제를 주고 한 번에 답을 내게 하지 않았습니다. 대신 **40 번의 기회 (Turn)**를 주었습니다.

도구 사용: AI 는 두 가지 도구를 쓸 수 있습니다.
1. Lean Loogle (검색): 수학 도서관 (Mathlib) 에서 필요한 공식을 검색합니다.
2. Lean Executor (실행): 쓴 코드를 컴퓨터에 돌려보고 "오류가 났다"는 피드백을 받습니다.
과정: AI 는 코드를 쓰고, 오류가 나면 수정하고, 다시 검색하고, 다시 실행하는 과정을 반복하며 40 번 안에 정답을 찾아야 합니다.

4. 주요 결과: "AI 는 아직 수학자처럼 완벽하지 않다"

최고급 AI 모델들을 시험에 참여시켰는데, 결과는 다음과 같았습니다.

최고 점수: 33.5% (Anthropic 의 Claude Opus 4.5 모델이 1 위).
- 즉, 100 개의 문제 중 33 개 정도만 완벽하게 증명했습니다. 나머지 67 개는 실패했습니다.
점수 하락: 1 위 모델 다음으로 점수가 급격히 떨어졌습니다.
결론: AI 는 수학 문제를 풀 때 '감'이나 '추측'은 잘하지만, **엄격한 논리 검증 (컴퓨터가 통과하는 증명)**을 해내는 능력은 아직 인간 수학자나 대학원생 수준에 미치지 못합니다.

5. 흥미로운 발견: "검색보다 실행이 중요했다"

가장 흥미로운 점은 성공한 AI 들의 행동 패턴이었습니다.

실패한 패턴: 계속 '검색 (Loogle)'만 하다가, 없는 공리를 찾아 헤매거나 막히면 멈춰버렸습니다. (지나친 검색)
성공한 패턴: 일단 코드를 **실행 (Run Code)**해보고, 컴퓨터가 주는 "오류 메시지"를 보고 수정하는 과정을 반복했습니다.
비유: 수학 문제를 풀 때, 책 (검색) 을 계속 뒤적이는 것보다 연필로 직접 계산을 해보고 (실행), 틀리면 지우개로 고치는 과정을 반복하는 학생이 더 잘 맞춘다는 뜻입니다.

6. 이 연구의 의미: "수학의 새로운 파트너"

이 연구는 AI 가 수학 분야에서 실제 연구자 (수학자) 의 도구로 쓰일 수 있는지 확인하는 첫걸음입니다.

현재: AI 가 증명할 수 있는 문제는 아직 많지 않습니다.
미래: 이 벤치마크를 통해 AI 의 능력을 측정하고 개선하면, 언젠가 AI 가 수학자가 "이 증명 맞을까?"라고 의심할 때, AI 가 "컴퓨터가 검증했으니 100% 맞습니다"라고 말해주는 날이 올 것입니다.

요약

이 논문은 **"AI 가 수학 문제를 풀 때, 사람이 읽는 글이 아니라 컴퓨터가 검증하는 코드로 답을 내게 했더니, 최고의 AI 도 100 점 만점에 33 점 정도밖에 못 받았다"**는 사실을 밝혔습니다. 하지만 AI 가 **컴퓨터 오류 메시지를 보고 스스로 수정하는 과정 (실행과 반복)**을 잘할수록 성적이 좋아진다는 귀중한 교훈을 남겼습니다.

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. 이 실험의 핵심: "FormalProofBench" (공식 증명 벤치마크)

2. 시험 문제의 난이도: "대학원생도 울고 갈 문제들"

3. 실험 방법: "AI 의 40 번의 기회"

4. 주요 결과: "AI 는 아직 수학자처럼 완벽하지 않다"

5. 흥미로운 발견: "검색보다 실행이 중요했다"

6. 이 연구의 의미: "수학의 새로운 파트너"

요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 벤치마크 구성 (FormalProofBench)

2.2 평가 환경 (Evaluation Harness)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

4.1 성능 (Accuracy)

4.2 도구 사용 및 실패 모드 분석

4.3 비용 및 지연 시간

5. 의의 및 결론 (Significance)

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. 이 실험의 핵심: "FormalProofBench" (공식 증명 벤치마크)

2. 시험 문제의 난이도: "대학원생도 울고 갈 문제들"

3. 실험 방법: "AI 의 40 번의 기회"

4. 주요 결과: "AI 는 아직 수학자처럼 완벽하지 않다"

5. 흥미로운 발견: "검색보다 실행이 중요했다"

6. 이 연구의 의미: "수학의 새로운 파트너"

요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 벤치마크 구성 (FormalProofBench)

2.2 평가 환경 (Evaluation Harness)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

4.1 성능 (Accuracy)

4.2 도구 사용 및 실패 모드 분석

4.3 비용 및 지연 시간

5. 의의 및 결론 (Significance)

유사한 논문