MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

이 논문은 전문가 수준의 테이블 이해, 추론, 조작 능력을 포괄적으로 평가하기 위해 25 가지 실제 태스크와 28,000 개 이상의 질문으로 구성된 대규모 벤치마크인 MMTU 를 소개하고, 최신 선두 모델들조차 이 작업에서 상당한 개선의 여지가 있음을 보여줍니다.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📊 MMTU: AI 가 '엑셀'을 진짜로 이해할 수 있을까? (간단한 설명)

이 논문은 인공지능 (AI) 이 **데이터 표 (Table)**를 얼마나 잘 다루는지 테스트하는 새로운 시험지인 **'MMTU'**를 소개합니다.

기존의 AI 시험들은 주로 "문장을 읽고 답하기"나 "코딩 문제 풀기"에 집중했는데, MMTU 는 실제 직장인들이 매일 마주하는 복잡한 표 작업을 평가합니다. 마치 AI 에게 "단순히 글만 읽는 게 아니라, 엑셀 파일까지 제대로 다룰 수 있니?"라고 물어보는 것과 같습니다.


1. 왜 이 시험이 필요할까요? (배경)

지금까지 AI 는 책이나 뉴스 기사를 읽는 데는 매우 뛰어나졌습니다. 하지만 현실 세계에서는 데이터가 표 (Table) 형태로 저장되어 있습니다.

  • 비유: AI 가 도서관에서는 모든 책을 다 읽을 수 있지만, 사무실로 들어가면 엑셀 파일이나 데이터베이스를 다루는 데는 여전히 서툴다는 것입니다.
  • 문제점: 기존 시험들은 "SQL(데이터 검색 언어) 을 써줘"나 "이 표에서 답 찾아줘" 같은 아주 단순한 일만 테스트했습니다. 하지만 실제 전문가들은 표를 다듬고, 합치고, 오류를 찾고, 새로운 계산을 해내는 훨씬 복잡한 일을 합니다.

2. MMTU 란 무엇인가요? (시험 내용)

연구팀이 만든 이 시험지는 약 28,000 개의 질문25 가지의 다양한 업무 유형으로 구성되어 있습니다.

  • 시험 범위:

    • 표 정리: 빈칸을 채우기, 잘못된 숫자 찾기, 표를 다른 형태로 바꾸기.
    • 표 연결: 서로 다른 두 표를 의미 있는 기준으로 합치기 (조인).
    • 코드 작성: "이 표를 분석해서 그래프를 그려줘"라는 말을 듣고 파이썬이나 SQL 코드를 직접 짜기.
    • 추론: "매출이 10% 올랐는데, 원가는 어떻게 변했을까?"처럼 표 안의 숫자 관계를 찾아내기.
  • 비유: 이 시험은 AI 에게 "단순히 표를 읽는 것"이 아니라, 표를 가지고 "요리"를 해보라고 하는 것과 같습니다. 재료를 다듬고, 레시피를 짜고, 최종 요리를 완성해야 합니다.

3. AI 들의 성적표는 어땠나요? (결과)

최고 수준의 최신 AI 모델들 (OpenAI 의 GPT-5, DeepSeek R1 등) 을 이 시험에 풀어보게 했더니 결과는 아직 갈 길이 멀다는 것이었습니다.

  • 성적: 최고 모델인 GPT-5 가 약 70% 정도, 다른 모델들은 50~60% 정도를 받았습니다.
  • 해석: 100 점 만점에 70 점이라면 '나쁘지 않다'고 볼 수 있지만, 전문가 (데이터 엔지니어) 로서 일하려면 90 점 이상은 되어야 합니다. 아직 AI 는 전문가의 반쪽도 되지 못한다는 뜻입니다.

4. AI 가 특히 어려워하는 점 (실수 원인)

연구팀은 AI 가 왜 틀렸는지 분석했는데, 몇 가지 재미있는 패턴이 발견되었습니다.

  • 긴 표를 보면 눈이 멀어집니다 (긴 문맥 문제):
    • 비유: 표가 책 100 페이지 분량으로 길어지면, AI 는 중간에 있는 중요한 숫자를 찾아내지 못합니다. 마치 긴 소설을 읽다가 50 페이지에 나온 주인공의 이름을 잊어버리는 것과 같습니다. 특히 세로 (열) 방향으로 정보가 길어지면 AI 는 더 혼란을 겪습니다.
  • 표의 순서를 바꾸면 당황합니다 (강건성 부족):
    • 비유: 표에서 행 (가로줄) 이나 열 (세로줄) 순서를 뒤섞어도 내용은 똑같습니다. 하지만 AI 는 "순서가 바뀌니 이게 무슨 뜻이지?"라고 당황하며 틀린 답을 냅니다. 마치 책장을 뒤집어 놓으면 내용을 못 읽는 사람과 비슷합니다.
  • 코딩과 추론이 어렵습니다:
    • 단순히 답을 고르는 게 아니라, **"이 데이터를 어떻게 처리할지 코드를 짜고 논리적으로 추론"**해야 하는 문제에서는 실수가 많았습니다.

5. 결론 및 의의

이 논문은 **"AI 가 이제 글쓰기나 대화는 잘하지만, 실제 업무 (데이터 분석) 에 투입되려면 아직 많이 훈련이 필요하다"**는 메시지를 줍니다.

  • 미래: MMTU 라는 시험지를 통해 AI 개발자들은 "어떤 부분이 약한지" 정확히 알 수 있게 되었습니다.
  • 기대: 앞으로 이 시험지를 통해 더 똑똑한 AI 가 만들어지면, 우리는 엑셀이나 데이터베이스를 AI 비서에게 맡겨서 자동으로 정리하고 분석할 수 있는 날이 가까워질 것입니다.

한 줄 요약:

"AI 가 이제 '글'은 잘 읽지만, '표'를 가지고 복잡한 일을 하려면 아직 '수련'이 더 필요합니다. 이 논문은 그 수련을 위한 최고의 훈련장이자 시험지를 제시합니다."