SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SORRYDB"**라는 새로운 도구를 소개하며, 인공지능 (AI) 이 실제 수학 문제 해결에 얼마나 쓸모있는지 테스트하는 방법을 제안합니다.

기존의 AI 수학 테스트가 마치 "올림픽 수학 경시대회" 문제만 푸는 것과 같다면, 이 논문은 **"실제 건설 현장의 미해결 공사 문제"**를 해결하는 능력을 평가하는 것입니다.

다음은 이 논문의 핵심 내용을 일상적인 비유로 설명한 것입니다.

1. 문제: "수학 올림피아드"는 현실과 다르다

지금까지 AI 수학 능력을 평가할 때는 주로 **수학 올림피아드 (IMO)**나 대학 수학 경시대회 문제를 사용했습니다.

비유: 이는 마치 자동차 개발자가 "레이싱 트랙에서만 달리는 스포츠카"만 테스트하고, "진흙길이나 비포장도로를 달릴 수 있는지"는 무시하는 것과 같습니다.
현실: 실제 수학자들은 매일 새로운 이론을 증명하거나 복잡한 논리를 쌓아 올립니다. 이 과정은 경시대회 문제처럼 깔끔하지 않고, 서로 다른 개념들이 얽혀 있어 매우 복잡합니다. 또한, 기존 테스트 문제들은 AI 가 이미 답을 외워버려 (기억력 테스트가 되어버려) 진지한 평가가 어렵습니다.

2. 해결책: "SORRYDB" (죄송합니다 데이터베이스)

이 논문은 GitHub 에 있는 실제 수학 프로젝트들에서 AI 가 해결해야 할 진짜 문제를 모았습니다.

비유: 수학자들이 논문을 작성할 때, 증명하지 못한 부분은 임시로 **"죄송합니다 (Sorry)"**라고 적어두고 넘어갑니다. 마치 건축 도면에서 "여기 벽은 나중에 채울게요"라고 메모해 두는 것과 같습니다.
SORRYDB 의 역할: 이 논문은 전 세계 78 개 프로젝트에서 이렇게 "나중에 채워야 할 (Sorry)" 부분들을 긁어모아 데이터베이스를 만들었습니다.
특징: 이 데이터는 **살아있는 (동적)**입니다. 수학자들이 새로운 문제를 풀면 새로운 'Sorry'가 생기고, AI 가 해결하면 사라집니다. 그래서 AI 가 아무리 똑똑해져도 항상 새로운 과제가 기다리는 움직이는 목표입니다.

3. 실험 결과: "혼자서 vs 팀워크" vs "도구 사용"

연구진은 다양한 AI 모델 (일반 대화형 AI, 수학 특화 AI, 반복적으로 시도하는 AI 등) 을 이 'SORRYDB'에 투입해 보았습니다.

한 번에 맞추기 (Pass@1) vs 반복 시도 (Iterative):
- 비유: 한 번에 정답을 맞히려는 것보다, 틀리면 오류 메시지를 보고 다시 수정하는 과정을 반복하는 것이 훨씬 효과적이었습니다.
- 결과: AI 가 "에러가 났네? 아, 이 부분이 부족했구나"라고 스스로 수정하며 다시 시도하는 방식이, 단순히 많은 답을 내는 방식보다 훨씬 잘 풀었습니다.
일반 AI vs 수학 특화 AI:
- 비유: 수학 경시대회에 특화된 AI 는 어려운 문제도 잘 풀지만, 실제 현장 (프로젝트) 의 복잡한 상황에서는 오히려 일반 AI 가 더 잘 적응하기도 했습니다.
- 결론: 어떤 AI 는 특정 문제만 잘 풀고, 어떤 AI 는 다른 문제를 잘 풀었습니다. 즉, **서로 다른 AI 들을 조합 (팀워크)**하면 혼자일 때보다 훨씬 많은 문제를 해결할 수 있었습니다.
도구의 중요성:
- 비유: AI 가 "내 기억만 믿고" 답을 찾으려다 실패한 반면, 실제 도서관 (수학 라이브러리) 을 검색하거나 오류 메시지를 확인하며 답을 찾은 AI 가 성공했습니다.
- 교훈: AI 가 단순히 지식을 외우는 것보다, 주변 환경 (코드, 에러 메시지, 참고 자료) 을 활용하는 능력이 훨씬 중요했습니다.

4. 결론: AI 는 이제 '실전'을 치러야 한다

이 논문의 핵심 메시지는 **"AI 수학자는 이제 연습장 (경시대회) 을 벗어나, 실제 공사 현장 (실제 수학 프로젝트) 에서 일할 준비가 되어야 한다"**는 것입니다.

SORRYDB는 AI 가 실제로 수학자들의 일을 도와줄 수 있는지, 즉 **"실제 쓰임새 (Practical Utility)"**를 평가하는 새로운 기준이 될 것입니다.
이 기준을 통해 우리는 AI 가 단순히 문제를 푸는 것을 넘어, 복잡한 현실 세계의 논리적 난관을 해결할 수 있는 진정한 파트너가 될 수 있는지 확인할 수 있게 됩니다.

요약

이 논문은 **"AI 가 수학 경시대회 문제만 푸는 게 아니라, 실제 수학자들이 매일 마주하는 '아직 해결되지 않은 문제 (Sorry)'를 얼마나 잘 해결할 수 있는지"**를 평가하는 새로운 시스템을 만들었습니다. 그 결과, 스스로 실수를 고치고 주변 정보를 활용하는 AI가 가장 잘하며, 다양한 AI 를 섞어 쓰는 것이 가장 효과적이라는 것을 발견했습니다.

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 문제: "수학 올림피아드"는 현실과 다르다

2. 해결책: "SORRYDB" (죄송합니다 데이터베이스)

3. 실험 결과: "혼자서 vs 팀워크" vs "도구 사용"

4. 결론: AI 는 이제 '실전'을 치러야 한다

요약

SorryDB: AI Provers 가 현실 세계의 Lean 정리를 완성할 수 있는가?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 데이터셋 구축 (Dataset Construction)

2.2 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 문제: "수학 올림피아드"는 현실과 다르다

2. 해결책: "SORRYDB" (죄송합니다 데이터베이스)

3. 실험 결과: "혼자서 vs 팀워크" vs "도구 사용"

4. 결론: AI 는 이제 '실전'을 치러야 한다

요약

SorryDB: AI Provers 가 현실 세계의 Lean 정리를 완성할 수 있는가?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 데이터셋 구축 (Dataset Construction)

2.2 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems