Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

이 논문은 학생의 손으로 쓴 수학 풀이 과정의 오류를 분석하고 설명하기 위해 고안된 새로운 벤치마크 'ScratchMath'를 소개하고, 다양한 멀티모달 대규모 언어 모델 (MLLM) 의 성능을 평가하여 인간 전문가와의 격차와 향후 연구 방향을 제시합니다.

Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧱 1. 연구의 배경: "정답만 알려주는 AI" vs "선생님 같은 AI"

지금까지 수학 문제를 풀 때 AI 는 보통 '수험생' 역할을 했습니다. 문제를 보고 "정답은 1980 입니다!"라고 말해주죠. 하지만 진짜 필요한 건 **'선생님'**의 역할입니다.

  • 상황: 학생이 문제를 풀다가 실수해서 1980 이라고 썼는데, 정답은 1.98 이라고 합니다.
  • 기존 AI: "정답은 1.98 입니다. (그만)"
  • 선생님 같은 AI: "아! 너는 그램 (g) 단위로 계산은 잘했는데, 킬로그램 (kg) 으로 바꾸는 걸 깜빡했구나! 그래서 1000 배가 커진 거야."

이 논문은 AI 가 '수험생'이 아니라 '선생님'처럼 학생의 손글씨 풀이 (스크래치워크) 를 보고 실수 원인을 찾아내고 설명해 줄 수 있는지를 테스트했습니다.

📝 2. 새로운 도구: '스크래치매스 (ScratchMath)'

연구팀은 이를 위해 **'스크래치매스'**라는 새로운 시험지를 만들었습니다.

  • 내용: 중국 초등학교와 중학교 학생 1,720 명의 실제 손으로 쓴 수학 풀이 과정 사진과 문제, 정답을 모았습니다.
  • 특이점: 학생들의 글씨는 사람마다 다르고, 계산 실수, 개념 오해, 단순 착각 등 다양한 '실수'가 섞여 있습니다. 마치 어지러운 책상 위와 같습니다.
  • 목표: AI 가 이 어지러운 손글씨를 보고 "어디서 실수했는지"를 **이유 (설명)**와 **카테고리 (분류)**로 맞춰내게 하는 것입니다.

🤖 3. 실험 결과: AI 의 실력은 어땠을까?

연구팀은 최신 AI 16 개를 이 시험에 출시시켰습니다. 결과는 **'아직은 선생님 못 미친다'**였습니다.

🏆 1등은? (비밀 유지 모델 vs 오픈 소스)

  • 비밀 유지 모델 (Proprietary): 구글, 오픈AI 같은 대기업이 만든 모델 (예: o4-mini, GPT-4o) 이 압도적으로 잘했습니다.
  • 오픈 소스 모델: 누구나 쓸 수 있는 모델들은 상대적으로 실수가 많았습니다.
  • 비유: 대기업 모델은 수십 년 동안 쌓인 방대한 도서관을 읽은 천재 선생님 같고, 오픈 소스 모델은 직접 공부한 열정적인 신참 선생님 같은 느낌입니다.

📉 AI 가 가장 어려워한 것들

AI 는 정답을 맞추는 건 잘하지만, 실수를 분석하는 데는 한계가 있었습니다.

  1. 눈이 나쁜 AI (시각 인식 실패):
    • 학생이 쓴 숫자 '1'을 'l'이나 '|'로 잘못 보거나, 분수 선을 못 읽는 경우가 많았습니다.
    • 비유: 안경을 안 쓴 선생님이 학생의 글씨를 읽다가 "이게 1 인가, l 인가?" 하고 헷갈리는 상황입니다.
  2. 논리 추론 부족:
    • "왜 이 학생이 4 를 35 로 나눴을까?"라는 학생의 생각 과정을 따라가는 데서 막혔습니다.
    • 비유: 학생이 "아, 내가 35 를 4 로 나눈 게 아니라 4 를 35 로 나눈 거였네!"라고 깨달을 때, AI 는 "아니, 그냥 계산 실수야"라고만 말합니다.
  3. 환각 (Hallucination):
    • 학생이 쓴 게 아닌데, AI 가 "아, 여기 계산 실수 있네!"라고 없는 실수를 만들어내는 경우가 있었습니다.

📊 4. 흥미로운 발견들

  1. 초등학생 문제보다 중학생 문제가 더 어려울 수도 있다?

    • 설명 (ECE) 과제: 고학년일수록 문제가 복잡해서 AI 가 설명을 잘 못했습니다.
    • 분류 (ECC) 과제: 의외로 중학생의 손글씨가 더 깔끔하고 체계적이라, AI 가 실수 유형을 분류하는 건 초등학생보다 더 잘했습니다.
    • 비유: 초등학생은 감성적으로 풀어서 글씨가 구불구불하고 어렵지만, 중학생은 공식을 딱딱 정리해서 써서 AI 가 읽기 편한 것입니다.
  2. 모델 크기가 크면 무조건 잘할까?

    • 크기가 큰 모델이 대체로 좋지만, 추론 (Reasoning) 능력을 가진 모델이 실수 원인을 설명하는 데 특히 강했습니다.

💡 5. 결론: AI 는 아직 '보조 선생님'일 뿐

이 연구는 **"AI 가 학생의 손글씨를 보고 실수를 찾아내는 것은 아직 인간 선생님보다 훨씬 어렵다"**는 사실을 증명했습니다.

  • 현재: AI 는 정답을 알려주는 '계산기' 역할은 잘하지만, 학생의 마음을 읽고 실수를 교정해주는 '멘토' 역할은 아직 부족합니다.
  • 미래: 이 연구는 AI 가 더 똑똑한 교육 도구가 되기 위해 시각 인식 능력논리적 추론 능력을 어떻게 키워야 하는지 방향을 제시했습니다.

한 줄 요약:

"지금의 AI 는 수학 문제를 풀어서 정답을 알려주는 '스마트한 학생'은 될 수 있지만, 학생의 손글씨를 보고 "왜 틀렸는지" 설명해주는 '훌륭한 선생님'이 되려면 아직 갈 길이 멀다!"

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →