Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

LLM 의 전문성 평가를 위한 새로운 벤치마크인 XpertBench 는 80 개 전문 분야의 1,346 개 과제를 포함하며, 전문가가 작성한 상세한 평가 기준과 Few-shot 예시를 활용한 ShotJudge 를 통해 현재 최첨단 모델조차 진정한 전문가 수준의 역량을 달성하지 못함을 규명했습니다.

Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

게시일 2026-04-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 새로운 시험이 필요했을까요? (기존의 문제점)

지금까지 AI 를 평가할 때는 주로 "수능이나 자격증 시험" 같은 방식을 썼습니다.

  • 비유: "사과와 배 중 어떤 것이 과일인가요?" 같은 객관식 문제를 많이 내서 점수를 매겼죠.
  • 문제점: AI 는 이런 문제를 풀면 점수가 100 점에 가깝게 나오지만, 막상 실제 세상에 나가면 엉뚱한 짓을 하거나 전문가의 도움을 못 줍니다. 마치 "수학 문제를 다 풀지만, 실제 건축물을 지을 때는 벽이 무너뜨리는" 상황과 비슷합니다.

2. XpertBench 는 무엇인가요? (새로운 시험지)

이 논문은 **"실제 전문가들이 매일 겪는 진짜 업무"**를 모아서 시험지로 만들었습니다.

  • 1,346 개의 진짜 업무: 금융, 법률, 의료, 교육 등 80 가지 분야에서 실제 전문가들이 하루에 하는 일 (예: "두 회사의 재무제표를 비교해서 투자 의견을 내라", "환자의 증상을 보고 진단서를 작성하라") 을 모았습니다.
  • 출제자: 이 문제는 AI 가 아니라, 실제 의사, 변호사, 금융 전문가, 교수님 1,000 여 명이 직접 내주셨습니다. 그래서 "AI 가 풀기엔 너무 어렵고, 현실적인 난이도"를 자랑합니다.

3. 어떻게 채점하나요? (ShotJudge: 전문가의 눈)

기존에는 AI 가 AI 를 채점하거나, 단순히 정답이 맞는지 틀린지만 봤습니다. 하지만 이 시험은 전문가처럼 생각해야 합니다.

  • 비유: 학교 시험에서 "정답만 맞으면 100 점"이 아니라, **"풀이 과정이 논리적인가? 전문 용어를 잘 썼는가? 위험 요소는 고려했는가?"**를 15~40 가지 항목으로 나누어 꼼꼼히 채점합니다.
  • ShotJudge(샷저지): 이 복잡한 채점을 AI 가 하되, **실제 전문가가 작성한 '모범 답안과 해설'**을 보여주고 "너도 이렇게 생각해서 채점해라"라고 가르쳐서 (Few-shot learning) 채점의 정확도를 높였습니다.

4. 결과는 어땠나요? (현실적인 충격)

최고급 AI 모델 12 개를 이 시험에 풀어보게 했더니 놀라운 결과가 나왔습니다.

  • 점수: 최고의 AI 가 얻은 점수는 최대 66 점 정도였습니다. (평균은 55 점대)
    • 비유: "수능 만점자"라고 자부하는 AI 들도, 실제 전문가 업무에서는 아직 초보 수준이라는 뜻입니다.
  • 편향된 능력: AI 는 분야마다 천차만별이었습니다.
    • 어떤 AI 는 금융 분야에서는 84 점으로 압도적이지만, 공학/수학 분야에서는 42 점으로 떨어졌습니다.
    • 또 다른 AI 는 법률/인문학은 잘하지만, 교육 분야에서는 뒤처졌습니다.
    • 결론: "모든 일을 다 잘하는 만능 전문가 AI"는 아직 존재하지 않습니다.

5. AI 가 왜 실패했나요? (주요 실패 원인)

전문가 업무에서 AI 가 자주 하는 실수는 단순한 지식 부족이 아니었습니다.

  1. 정보 과부하 (검색 중독): 인터넷을 너무 열심히 찾아보다가 핵심에서 벗어난 잡다한 정보에 혼란을 겪었습니다.
  2. 원칙 착각 (할루시네이션): 문제의 시작 부분에서 기본 개념을 잘못 이해하면, 그 뒤로 이어지는 모든 논리가 엉망이 되어버렸습니다. (예: "약이 A 라는 성분이 없다"고 잘못 알고 시작하면, 그 뒤의 모든 치료 계획이 무너짐)
  3. 전문성 부족: 단순히 사실을 나열하는 것은 잘하지만, 상황에 맞춰 유연하게 판단하거나 복잡한 계획을 세우는 능력은 부족했습니다.

6. 요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 는 이제 '지식만 있는 학생'에서 '실무 능력을 갖춘 동료'로 넘어가야 한다"**고 말합니다.

  • 기존: "이게 정답인가요?" (지식 테스트)
  • 새로운 방향: "이 복잡한 문제를 어떻게 해결할 건가요?" (실무 능력 테스트)

XpertBench 는 AI 가 단순히 시험 점수를 잘 받는 것을 넘어, 실제 우리 사회의 전문가들과 함께 일할 수 있는지를 가늠하는 중요한 기준이 될 것입니다. 아직 AI 는 전문가의 반열에 오르지 못했지만, 이 새로운 시험지를 통해 어디가 부족하고 어떻게 발전해야 할지 정확한 지도를 얻게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →