A Minimal Agent for Automated Theorem Proving

이 논문은 반복적 증명 정제, 라이브러리 검색, 컨텍스트 관리 등 최첨단 시스템의 핵심 기능을 간소화하여 구현한 최소한의 자동 증명 에이전트를 제안하고, 다양한 벤치마크에서 복잡한 아키텍처와 경쟁력 있는 성능을 보이면서도 샘플 효율성과 비용 효율성 면에서 단일 생성 방식보다 우월함을 입증했습니다.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"수학 문제를 해결하는 AI 에게 '단순하지만 똑똑한' 비법을 가르친 연구"**라고 할 수 있습니다.

기존의 복잡한 수학 증명 AI 들은 거대한 공장처럼 많은 자원을 소모하고 복잡한 기계 장치로 작동했습니다. 하지만 이 연구팀은 **"작은 공방처럼 간단하지만, 실수하면 다시 시도하고 메모장을 잘 활용하는 방식"**이 훨씬 더 효율적이고 강력하다는 것을 증명했습니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


1. 핵심 아이디어: "거대한 공장 vs. 똑똑한 장인"

  • 기존 방식 (거대한 공장):
    이전의 AI 수학자들은 문제를 풀 때, 수천 번의 시도를 하거나 거대한 데이터베이스를 뒤적이며 복잡한 알고리즘을 돌렸습니다. 마치 거대한 공장에서 컨베이어 벨트를 돌려 무작위로 부품을 조립하다가 우연히 맞는 것을 찾는 것과 비슷했습니다. 비용도 많이 들고, 새로운 수학 언어 (Lean) 가 업데이트되면 공장을 다시 지어야 하는 번거로움이 있었습니다.

  • 이 연구의 방식 (똑똑한 장인 - AxProverBase):
    연구팀은 **"단순한 도구 세 개"**만 갖춘 작은 공방을 만들었습니다.

    1. 시도하고 피드백 받기 (Iterative Refinement): 한 번에 완벽하게 맞추려 하지 않습니다. "이건 안 맞네?"라는 오류 메시지를 보고 수정합니다.
    2. 메모장 (Memory): 같은 실수를 반복하지 않기 위해 "어제 실수했던 부분"을 메모장에 적어두고 다음에 참고합니다.
    3. 참고서 찾기 (Tools): 모르는 개념이 나오면 도서관 (Mathlib) 이나 인터넷을 검색해서 답을 찾아옵니다.

이 세 가지만으로도 거대한 공장보다 훨씬 더 빠르고 정확하게 문제를 해결할 수 있다는 것이 이 논문의 핵심입니다.

2. 구체적인 작동 원리: "수학 시험을 보는 학생"

이 AI 에이전트가 문제를 풀 때의 과정을 한 학생의 시험 공부에 비유해 볼까요?

  1. 문제 제시 (Proposer):
    학생 (AI) 이 수학 문제를 받습니다. 처음엔 막연하게 "아마 이 공식으로 풀 수 있겠지?"라고 추측해서 답안을 작성합니다.

  2. 채점과 피드백 (Compiler & Reviewer):
    선생님이 답안을 채점합니다.

    • "여기 계산 실수했어 (컴파일 오류)"
    • "이 단계는 생략했네 (sorry)"
    • "문제를 바꿨잖아? 원래 문제대로 다시 해."
      이 피드백을 학생은 그대로 받습니다.
  3. 메모장 활용 (Memory):
    여기서 중요한 건 메모장입니다.

    • 이전 방식: 매번 처음부터 다시 시작해서 같은 실수를 반복했습니다.
    • 이 연구의 방식: 학생은 "어제 '링 (Ring)' 이론에서 비가환적일 때 'ring' 명령어를 쓰면 안 된다는 걸 배웠어"라고 메모장에 적어둡니다. 다음 문제를 풀 때 이 메모를 보고 "아, 이번엔 수동으로 식을 풀어야지!"라고 바로 수정합니다.
    • 결과: 같은 실수를 반복하지 않아서 훨씬 빨리 정답에 도달합니다.
  4. 참고서 검색 (Tools):
    막히는 부분이 생기면 학생은 "Mathlib 이라는 도서관"이나 "Tavily 라는 인터넷 검색"을 통해 필요한 공식을 찾아옵니다. 하지만 연구 결과에 따르면, 메모장을 잘 쓰는 것이 도서관을 찾는 것보다 훨씬 더 큰 효과를 보였습니다.

3. 놀라운 결과: "작은 비용으로 거대한 성과"

연구팀은 이 간단한 방식을 다양한 수학 대회 문제 (Putnam, FATE 등) 로 테스트했습니다.

  • 성공률: 복잡한 거대 AI 들과 비교해도 뒤지지 않는, 오히려 더 좋은 성적을 냈습니다.
  • 비용: 거대 AI 들은 문제를 하나 풀기 위해 수백만 원의 계산 비용이 들지만, 이 간단한 방식은 그 10 분의 1, 100 분의 1 비용으로 해결했습니다.
  • 유연성: 수학 언어 (Lean) 가 업데이트되어도, 복잡한 공장을 고칠 필요 없이 이 간단한 '학생'에게 새로운 규칙만 알려주면 바로 적응합니다.

4. 결론: "왜 이것이 중요한가?"

이 논문은 **"AI 가 똑똑해지려면 무조건 크고 복잡해져야 하는 것은 아니다"**라고 말합니다.

  • 핵심 메시지: AI 가 문제를 해결할 때, 거대한 뇌 (모델) 만 믿는 것이 아니라 **잘못된 것을 고치는 과정 (반복)**과 **과거의 교훈을 기억하는 것 (메모)**이 훨씬 중요합니다.
  • 일상적인 비유:
    • 과거: "나는 천재야, 한 번에 다 맞춰!"라고 외치다가 실패하는 사람.
    • 이 연구: "아, 이번엔 틀렸네. 왜 틀렸지? 메모장에 적어두고 다음엔 고쳐보자."라고 차분하게 접근하는 사람.

이 연구는 앞으로 AI 가 과학적 발견이나 복잡한 논리 문제를 해결할 때, 복잡한 시스템보다는 '학습하고 성장하는 과정'에 집중하는 것이 더 효율적임을 보여주었습니다. 이제 누구나 이 간단한 '공방'을 가져와서 자신의 프로젝트에 적용할 수 있게 되었습니다.