SorryDB: Can AI Provers Complete Real-World Lean Theorems?

이 논문은 기존 벤치마크의 한계를 극복하고 실제 Lean 프로젝트의 요구에 부응하는 동적 평가 기준인 'SorryDB'를 제안하며, 다양한 AI 증명 접근법들이 상호 보완적임을 실증했습니다.

Austin Letson, Leopoldo Sarra, Auguste Poiroux, Oliver Dressler, Paul Lezeau, Dhyan Aranha, Frederick Pu, Aaron Hill, Miguel Corredera Hidalgo, Julian Berman, George Tsoukalas, Lenny Taelman

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SORRYDB"**라는 새로운 도구를 소개하며, 인공지능 (AI) 이 실제 수학 문제 해결에 얼마나 쓸모있는지 테스트하는 방법을 제안합니다.

기존의 AI 수학 테스트가 마치 "올림픽 수학 경시대회" 문제만 푸는 것과 같다면, 이 논문은 **"실제 건설 현장의 미해결 공사 문제"**를 해결하는 능력을 평가하는 것입니다.

다음은 이 논문의 핵심 내용을 일상적인 비유로 설명한 것입니다.


1. 문제: "수학 올림피아드"는 현실과 다르다

지금까지 AI 수학 능력을 평가할 때는 주로 **수학 올림피아드 (IMO)**나 대학 수학 경시대회 문제를 사용했습니다.

  • 비유: 이는 마치 자동차 개발자가 "레이싱 트랙에서만 달리는 스포츠카"만 테스트하고, "진흙길이나 비포장도로를 달릴 수 있는지"는 무시하는 것과 같습니다.
  • 현실: 실제 수학자들은 매일 새로운 이론을 증명하거나 복잡한 논리를 쌓아 올립니다. 이 과정은 경시대회 문제처럼 깔끔하지 않고, 서로 다른 개념들이 얽혀 있어 매우 복잡합니다. 또한, 기존 테스트 문제들은 AI 가 이미 답을 외워버려 (기억력 테스트가 되어버려) 진지한 평가가 어렵습니다.

2. 해결책: "SORRYDB" (죄송합니다 데이터베이스)

이 논문은 GitHub 에 있는 실제 수학 프로젝트들에서 AI 가 해결해야 할 진짜 문제를 모았습니다.

  • 비유: 수학자들이 논문을 작성할 때, 증명하지 못한 부분은 임시로 **"죄송합니다 (Sorry)"**라고 적어두고 넘어갑니다. 마치 건축 도면에서 "여기 벽은 나중에 채울게요"라고 메모해 두는 것과 같습니다.
  • SORRYDB 의 역할: 이 논문은 전 세계 78 개 프로젝트에서 이렇게 "나중에 채워야 할 (Sorry)" 부분들을 긁어모아 데이터베이스를 만들었습니다.
  • 특징: 이 데이터는 **살아있는 (동적)**입니다. 수학자들이 새로운 문제를 풀면 새로운 'Sorry'가 생기고, AI 가 해결하면 사라집니다. 그래서 AI 가 아무리 똑똑해져도 항상 새로운 과제가 기다리는 움직이는 목표입니다.

3. 실험 결과: "혼자서 vs 팀워크" vs "도구 사용"

연구진은 다양한 AI 모델 (일반 대화형 AI, 수학 특화 AI, 반복적으로 시도하는 AI 등) 을 이 'SORRYDB'에 투입해 보았습니다.

  • 한 번에 맞추기 (Pass@1) vs 반복 시도 (Iterative):

    • 비유: 한 번에 정답을 맞히려는 것보다, 틀리면 오류 메시지를 보고 다시 수정하는 과정을 반복하는 것이 훨씬 효과적이었습니다.
    • 결과: AI 가 "에러가 났네? 아, 이 부분이 부족했구나"라고 스스로 수정하며 다시 시도하는 방식이, 단순히 많은 답을 내는 방식보다 훨씬 잘 풀었습니다.
  • 일반 AI vs 수학 특화 AI:

    • 비유: 수학 경시대회에 특화된 AI 는 어려운 문제도 잘 풀지만, 실제 현장 (프로젝트) 의 복잡한 상황에서는 오히려 일반 AI 가 더 잘 적응하기도 했습니다.
    • 결론: 어떤 AI 는 특정 문제만 잘 풀고, 어떤 AI 는 다른 문제를 잘 풀었습니다. 즉, **서로 다른 AI 들을 조합 (팀워크)**하면 혼자일 때보다 훨씬 많은 문제를 해결할 수 있었습니다.
  • 도구의 중요성:

    • 비유: AI 가 "내 기억만 믿고" 답을 찾으려다 실패한 반면, 실제 도서관 (수학 라이브러리) 을 검색하거나 오류 메시지를 확인하며 답을 찾은 AI 가 성공했습니다.
    • 교훈: AI 가 단순히 지식을 외우는 것보다, 주변 환경 (코드, 에러 메시지, 참고 자료) 을 활용하는 능력이 훨씬 중요했습니다.

4. 결론: AI 는 이제 '실전'을 치러야 한다

이 논문의 핵심 메시지는 **"AI 수학자는 이제 연습장 (경시대회) 을 벗어나, 실제 공사 현장 (실제 수학 프로젝트) 에서 일할 준비가 되어야 한다"**는 것입니다.

  • SORRYDB는 AI 가 실제로 수학자들의 일을 도와줄 수 있는지, 즉 **"실제 쓰임새 (Practical Utility)"**를 평가하는 새로운 기준이 될 것입니다.
  • 이 기준을 통해 우리는 AI 가 단순히 문제를 푸는 것을 넘어, 복잡한 현실 세계의 논리적 난관을 해결할 수 있는 진정한 파트너가 될 수 있는지 확인할 수 있게 됩니다.

요약

이 논문은 **"AI 가 수학 경시대회 문제만 푸는 게 아니라, 실제 수학자들이 매일 마주하는 '아직 해결되지 않은 문제 (Sorry)'를 얼마나 잘 해결할 수 있는지"**를 평가하는 새로운 시스템을 만들었습니다. 그 결과, 스스로 실수를 고치고 주변 정보를 활용하는 AI가 가장 잘하며, 다양한 AI 를 섞어 쓰는 것이 가장 효과적이라는 것을 발견했습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →