A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

이 논문은 유사 문제 검색과 형식적 검증기를 결합한 신경-심볼릭 접근법을 통해 LLM 의 기하학적 증명 정확도를 크게 향상시키고 신뢰할 수 있는 추론을 가능하게 하는 방법을 제시합니다.

Oren Sultan, Eitan Stern, Dafna Shahaf

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 수학 문제를 풀 때, 어떻게 하면 더 똑똑하고 신뢰할 수 있게 만들 수 있을까?"**라는 질문에 대한 답을 제시합니다.

기존의 인공지능은 방대한 책을 읽어서 언어 패턴을 학습했지만, 수학처럼 "100% 논리적으로 옳은" 답을 요구하는 분야에서는 종종 헛소리를 하거나 논리적 허점을 보입니다. 마치 재미있는 이야기를 잘 지어내는 작가가 있지만, 수학 시험에서는 실수를 자주 하는 학생과 비슷합니다.

저희 연구팀은 이 문제를 해결하기 위해 **"뇌 (AI) + 도구 (수학 검증기)"**를 결합한 새로운 방식을 제안했습니다. 이를 일상적인 비유로 설명해 드릴게요.


🧩 핵심 아이디어: "유명한 수학 선생님의 노트"와 "엄격한 감수자"

이 시스템은 두 가지 강력한 무기를 가지고 있습니다.

1. 비슷한 문제를 찾아주는 "유사 문제 검색기" (Analogical Guidance)

  • 비유: 시험을 치르는데, "이번 시험 문제는 어제의 그 문제와 구조가 비슷해. 어제의 풀이법을 참고해 봐!"라고 알려주는 친구가 있다고 상상해 보세요.
  • 작동 원리:
    • 인공지능에게 새로운 기하학 문제를 주면, 시스템은 먼저 문제의 핵심 구조 (점, 선, 각도의 관계) 만 추출합니다. (예: "A 가 B 와 평행하다"는 사실만 남기고 이름이나 숫자는 지웁니다.)
    • 그런 다음, 과거에 풀었던 수만 개의 문제 중에서 구조가 가장 비슷한 문제를 찾아냅니다.
    • 그 유사한 문제들의 정답과 풀이 과정을 인공지능에게 보여줍니다.
    • 효과: 인공지능은 "아, 이런 유형의 문제는 보통 이렇게 풀었구나!"라고 배우게 되어, 처음부터 막막해하지 않고 훨씬 정확한 답을 내놓을 확률이 높아집니다.

2. 틀린 점을 지적해주는 "엄격한 감수자" (Symbolic Verifier)

  • 비유: 인공지능이 풀이를 쓰면, 옆에 앉은 **수학 선생님 (컴퓨터 프로그램)**이 "여기서 논리가 끊겼어", "이 정리는 조건이 안 맞는데 왜 썼지?"라고 즉시 지적합니다.
  • 작동 원리:
    • 인공지능이 쓴 풀이를 컴퓨터가 논리적으로 하나하나 검증합니다. (사람이 눈으로 보는 게 아니라, 수학 공식으로 계산해 봅니다.)
    • 만약 틀린 점이 있으면, "어디가 왜 틀렸는지" 구체적으로 알려줍니다.
    • 인공지능은 이 피드백을 받고 다시 풀이를 고쳐서 제출합니다. 이 과정이 정답이 나올 때까지 반복됩니다.
    • 효과: 인공지능이 "아, 내가 실수했구나"라고 깨닫고 수정할 기회를 주어, 최종적으로 100% 논리적으로 옳은 증명을 완성하게 됩니다.

🚀 실제 성과: 얼마나 좋아졌을까요?

이 실험은 고등학교 수학 경시대회 (SAT 수준) 의 기하학 문제들로 테스트했습니다.

  • 기존 AI (혼자서 풀 때): 10 문제 중 1 개 정도만 맞췄습니다. (10% 성공률)
  • 새로운 방식 (유사 문제 + 감수자): 10 문제 중 8 개를 맞췄습니다. (80% 성공률)
    • 특히, OpenAI 의 o1 모델은 5870% 성능이 향상되었고, Gemini 모델도 5264% 나 좋아졌습니다.

재미있는 사실:
기존 AI 는 정답 (숫자) 을 맞출 수는 있어도, 그걸 증명하는 **과정 (논리)**을 엉망으로 쓰는 경우가 많았습니다. 하지만 이 새로운 방식을 쓰면, 정답도 맞고 증명 과정도 완벽해졌습니다.


💡 왜 이 방식이 중요할까요?

  1. 신뢰성: "AI 가 말하니까 믿자"가 아니라, "논리적으로 검증했으니까 믿자"가 됩니다. 이는 의료, 법률, 공학처럼 실수가 치명적인 분야에서 AI 를 쓸 수 있는 문을 엽니다.
  2. 비용 절감: 모든 수학 공식을 다 알려주는 게 아니라, 해당 문제와 관련된 공식만 골라서 알려주기 때문에 AI 가 처리해야 할 정보량이 줄어듭니다. (약 18,000 개의 공식을 2,500 개로 줄임)
  3. 학습 효과: 학생들에게도 유용합니다. 비슷한 문제를 보여주면서 힌트를 주고, 틀린 부분을 정확히 지적해주는 개인 맞춤형 튜터 역할을 할 수 있습니다.

🎯 결론

이 연구는 **"AI 가 혼자서 모든 걸 다 할 필요는 없다"**는 것을 보여줍니다.
AI 가 가진 창의성과 언어 능력에, 논리적 구조를 찾아주는 도구엄격한 검증 시스템을 더하면, 우리는 훨씬 더 똑똑하고 신뢰할 수 있는 AI 를 만들 수 있습니다. 마치 재능 있는 학생에게 훌륭한 멘토와 엄격한 감수자가 붙어주면, 그 학생은 세계적인 수학자가 될 수 있는 것과 같습니다.