LeanTutor: Towards a Verified AI Mathematical Proof Tutor

이 논문은 자연어 처리가 가능한 대형 언어 모델 (LLM) 과 엄밀한 증명 검증이 가능한 Lean 정리를 결합하여, 오류가 없는 수학적 증명 튜터 'LeanTutor'를 개발하고 PeanoBench 데이터셋을 통해 이를 평가하는 방법을 제시합니다.

Manooshree Patel, Rayna Bhattacharyya, Thomas Lu, Arnav Mehta, Niels Voss, Narges Norouzi, Gireeja Ranade

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 문제 상황: 두 가지 극단적인 선생님

수학을 공부하는 학생들은 보통 두 가지 도구를 사용합니다. 하지만 둘 다 단점이 있습니다.

  1. LLM (챗GPT 같은 AI):

    • 장점: 대화하듯 자연스럽게 말하고, 친절하게 설명해 줍니다.
    • 단점: 가짜 정보를 지어내는 (할루시네이션) 버릇이 있습니다. "정답은 A야!"라고 자신 있게 말하지만, 사실은 틀린 경우가 많습니다. 또한, 학생이 스스로 생각하게 하기보다 정답을 바로 알려버려 학습 효과를 떨어뜨립니다.
    • 비유: "아주 유창하게 말하지만, 가끔 엉뚱한 소리를 하는 친절한 친구"입니다.
  2. 정형 논리 증명기 (Lean 같은 도구):

    • 장점: 100% 정확한 논리만 인정합니다. 틀린 단계를 하나도 놓치지 않습니다.
    • 단점: 배우기 매우 어렵습니다. 복잡한 컴퓨터 코드 같은 문법을 알아야만 대화할 수 있습니다.
    • 비유: "정답은 딱 하나뿐인, 하지만 말투가 너무 딱딱하고 어려운 엄격한 교수님"입니다.

LeanTutor는 이 두 가지의 장점만 합친 새로운 튜터입니다. "친절한 친구의 말투"로 대화하되, "엄격한 교수님의 눈"으로 정답을 검증합니다.


🛠️ LeanTutor 의 작동 원리: 3 인조 팀

LeanTutor 는 세 명의 전문가로 구성된 팀처럼 작동합니다.

1. 번역가 (Autoformalizer)

  • 역할: 학생이 쓴 자연어 (한국어/영어) 증명 글을, 컴퓨터가 이해할 수 있는 'Lean'이라는 엄격한 언어로 실시간으로 번역합니다.
  • 작동 방식: 학생이 "이제 A 를 B 로 바꾸자"라고 말하면, 번역가는 즉시 Lean 코드로 바꿔서 컴퓨터에게 보여줍니다.
  • 중요한 점: 학생이 틀린 단계를 쓰면, 번역기는 "여기서 문법 오류가 났어요!"라고 즉시 알려줍니다.

2. 길잡이 (Next Step Generator)

  • 역할: 학생이 막히거나 틀렸을 때, "다음에 무엇을 해야 할지" 힌트를 찾아줍니다.
  • 작동 방식: 컴퓨터는 정답을 이미 알고 있습니다. 학생이 현재 어디에 서 있는지 확인한 뒤, 정답으로 가는 길에서 학생이 스스로 발견할 수 있는 다음 단계를 찾아냅니다.
  • 중요한 점: 정답을 바로 알려주지 않고, "저기 저기, 저기 계단 올라가면 어떨까?"라고 방향만 제시합니다.

3. 코치 (Feedback Generator)

  • 역할: 번역가와 길잡이의 정보를 받아, 학생에게 자연스러운 언어로 피드백을 줍니다.
  • 작동 방식: "네가 쓴 증명에서 3 단계가 조금 어색해. 왜 0 을 더했는지 다시 생각해 볼래?"라고 친절하게 물어봅니다.
  • 목표: 학생이 스스로 문제를 해결할 수 있도록 유도합니다.

🧪 실험: '페아노 벤치' (PeanoBench)

이 시스템을 테스트하기 위해 연구팀은 371 개의 수학 증명 문제로 구성된 데이터셋을 만들었습니다.

  • 특징: 모든 문제에는 '자연어 버전'과 'Lean 코드 버전'이 쌍으로 있습니다.
  • 시나리오: 학생이 틀린 증명을 쓰면, LeanTutor 가 이를 감지하고 올바른 방향으로 이끌어주는지 확인했습니다.

결과:

  • 기존 AI(챗GPT 등) 는 학생의 실수를 잘 못 찾거나, 엉뚱한 정답을 알려주는 경우가 많았습니다.
  • 반면, LeanTutor 는 학생의 실수를 정확히 찾아내고, 정답을 직접 알려주지 않으면서도 올바른 방향을 제시하는 데 훨씬 성공적이었습니다.

💡 핵심 요약: 왜 이것이 중요한가?

기존의 AI 튜터는 **"정답을 알려주는 기계"**에 가깝다면, LeanTutor 는 **"스스로 생각하게 만드는 코치"**입니다.

  • 학생에게: 어려운 수학 증명 문법을 몰라도, 평소처럼 대화하듯 증명할 수 있습니다.
  • 교육자에게: AI 가 엉뚱한 답을 가르쳐 학생을 혼란스럽게 하는 것을 막아줍니다.

결론적으로, LeanTutor 는 **"AI 의 말솜씨"**와 **"수학의 엄밀함"**을 결합하여, 학생들이 수학 증명이라는 미로를 혼자서 헤쳐나갈 수 있도록 돕는 완벽한 나침반을 만든 것입니다.