IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

이 논문은 인도 수학 올림피아드 문제를 기반으로 인간 검증이 이루어진 312 개의 Lean 4 정리 세트를 포함한 IndiMathBench 벤치마크를 소개하며, 이를 통해 대형 언어 모델의 자동 형식화 및 정리 증명 능력의 한계를 평가하고 있습니다.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "AI 는 수학 문제를 왜 못 풀까?"

지금까지 AI(대형 언어 모델) 는 수학 문제를 풀 때 **문법 (Syntax)**은 잘 맞추지만, **의미 (Semantics)**를 잘 이해하지 못했습니다.

  • 비유: AI 가 수학 문제를 풀 때, 마치 외국어 문법책은 달달 외웠지만 실제 대화는 못하는 사람과 같습니다.
    • 문장은 완벽하게 만들어내지만 (컴파일 오류 없음), 그 문장이 진짜로 수학적으로 옳은지 (논리적 오류) 는 모릅니다.
    • 또한, AI 를 훈련시킬 **고품질의 '정답지' (데이터)**가 너무 부족했습니다. 기존 시험지들은 너무 적거나, AI 가 이미 답을 미리 보고 공부해버린 (데이터 오염) 상태였습니다.

2. 해결책: "인도 수학 올림피아드 (INDIMATHBENCH) 라는 새로운 시험지"

연구팀은 인도의 고등학교 수학 경시대회 (INDIMATHBENCH) 문제를 가져와서, AI 가 직접 풀 수 있는 **공식적인 언어 (Lean 4)**로 번역한 새로운 데이터셋을 만들었습니다.

  • 특징:
    • 312 개의 문제: 기하학, 대수, 수론, 조합 등 다양한 분야의 어려운 문제들입니다.
    • 인간 검증: AI 가 번역한 모든 답안을 **수학 전문가 (인간)**가 다시 한번 꼼꼼히 확인하고 수정했습니다. 마치 수학 선생님들이 AI 가 쓴 답안을 직접 채점하고 정답을 고쳐주는 과정을 거친 셈입니다.
    • 난이도: 기존에 있던 시험지들보다 기하학 (도형) 문제가 훨씬 많고 어렵습니다. AI 가 특히 약한 분야를 집중적으로 공략한 것입니다.

3. 방법론: "AI 와 인간의 '팀워크' 시스템"

이렇게 어려운 문제를 AI 가 혼자 번역하는 건 불가능에 가까웠습니다. 그래서 연구팀은 **AI 가 초안을 쓰고, 인간이 다듬는 '협업 시스템'**을 만들었습니다.

  • 시스템의 작동 원리 (3 단계):

    1. 참고 자료 수집 (Retrieval): AI 가 문제를 번역할 때, 필요한 수학 용어와 규칙이 적힌 '참고서 (Mathlib)'를 먼저 찾아보게 합니다. (문법책 미리 보기)
    2. 실수 교정 (Iterative Feedback): AI 가 번역한 코드를 컴퓨터 (컴파일러) 에 넣어서 오류가 나면, 그 오류 메시지를 AI 에게 다시 보여줍니다. AI 는 "아, 내가 실수했구나!" 하고 고쳐서 다시 제출합니다. (약 6 번까지 반복)
    3. 여러 AI 의 의견 종합 (Ensemble): 같은 문제를 12 개의 서로 다른 AI 에게 번역하게 한 뒤, 가장 좋은 답안을 골라냅니다. (여러 선생님에게 답을 받아서 가장 좋은 걸 고르는 것)
  • 인간의 역할 (대시보드):

    • AI 들이 만든 여러 개의 답안과 오류 내용을 한눈에 볼 수 있는 **'전광판 (대시보드)'**을 만들었습니다.
    • 인간 전문가들은 이 전광판을 보면서, AI 가 틀린 부분을 바로잡거나, 여러 AI 의 답을 합쳐서 완벽한 정답을 만듭니다.
    • 효과: 이 시스템을 쓰지 않고 인간이 혼자 했을 때보다 3.5 배나 빠르게 문제를 번역할 수 있었습니다.

4. 결과: "AI 는 아직 수학 천재가 아니다"

이 새로운 시험지 (INDIMATHBENCH) 로 최신 AI 모델들을 시험해 보았습니다. 결과는 충격적이었습니다.

  • 문법 vs 의미: AI 가 만든 코드는 문법적으로 거의 완벽하게 (95% 이상) 작동했지만, 수학적으로 올바른 의미를 가진 경우는 매우 적었습니다.
    • 비유: AI 가 쓴 글은 **문법 검사기 (Grammarly)**를 통과했지만, 수학 선생님에게는 "이건 틀린 답이야"라고 지적당했습니다.
  • 성공률:
    • 한 번에 풀기 (Single Turn): 312 문제 중 1 문제만 성공했습니다. (100 점 만점에 0.3 점)
    • 여러 번 시도 (10 Turns): 오류를 수정하며 10 번까지 시도해도 성공률은 11% (약 36 문제) 에 그쳤습니다.
    • 기하학 문제: 도형 문제는 거의 전멸했습니다. AI 가 공간 감각이나 도형의 논리를 이해하는 데는 여전히 매우 취약합니다.

5. 결론: "인간의 손길이 필요한 시대"

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 가 수학 문제를 자동으로 번역하고 풀 수 있는 날은 아직 오지 않았습니다. 하지만 AI 가 초안을 만들고, 인간이 그걸 다듬는 '팀워크' 방식을 사용하면, 데이터 만드는 속도를 획기적으로 높일 수 있습니다."

한 줄 요약:

"AI 는 수학 문제를 '문법'은 잘 맞추지만 '뜻'을 못 알아듣는 초보 학생입니다. 그래서 우리가 '수학 선생님'이 되어 AI 의 답안을 함께 고쳐주며, 더 똑똑한 AI 를 키우는 훈련을 해야 합니다."

이 연구는 앞으로 AI 가 수학이나 논리학 같은 복잡한 분야에서 인간과 함께 일할 수 있는 새로운 방법론을 제시했다는 점에서 매우 중요합니다.