\$OneMillion-Bench: How Far are Language Agents from Human Experts?

이 논문은 법률, 금융, 산업, 의료, 자연과학 등 5 개 전문 분야의 400 개 전문가 큐레이션 과제를 포함하여 기존 벤치마크의 한계를 넘어 언어 에이전트의 실제 전문성, 추론 과정, 그리고 경제적 중요성이 있는 시나리오에서의 신뢰성을 종합적으로 평가하기 위한 새로운 벤치마크인 '$OneMillion-Bench'를 소개합니다.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

💰 "100 만 달러 벤치마크": AI 가 진짜 전문가가 될 수 있을까?

이 논문은 **"언어 모델 (AI) 이 이제까지 해온 시험 문제 풀이를 넘어, 실제로 돈을 벌 수 있는 전문가 수준의 일을 할 수 있는가?"**를 묻는 아주 흥미로운 실험을 소개합니다.

기존의 AI 평가는 마치 **"수능 모의고사"**처럼 정해진 답이 있는 문제를 얼마나 빠르게 푸는지에 집중했습니다. 하지만 현실 세계의 일 (법률, 금융, 의료 등) 은 정답이 명확하지 않고, 복잡한 정보를 찾아내고, 전문적인 규칙을 따르며, 실수하면 큰 손해를 보는 '고위험' 업무입니다.

이 연구팀은 이를 해결하기 위해 **"$1M-Bench(100 만 달러 벤치마크)"**라는 새로운 시험지를 만들었습니다.


🏗️ 1. 이 벤치마크는 무엇인가요? (비유: "가상의 100 만 달러 회사")

상상해 보세요. AI 들이 400 개의 아주 어려운 미션을 수행하는 가상의 회사를 운영한다고 가정해 봅시다.

  • 미션의 내용: 보험금 계산, 해외 합병 계약서 검토, 희귀병 치료 계획 수립, 신소재 연구 등 실제 전문가들이 하는 일입니다.
  • 점수 체계: 단순히 "정답/오답"이 아닙니다. **"이 일을 사람이 했다면 몇 시간이 걸렸을까?"**를 계산해서 실제 돈 (달러 또는 원화) 으로 점수를 매깁니다.
    • 예시: AI 가 1 시간 만에 100 만 원짜리 업무를 완벽하게 처리했다면, 그 AI 는 100 만 원의 가치를 창출한 것입니다.
  • 총 가치: 모든 미션의 합산 가치가 100 만 달러 (약 13 억 원) 이상이라서 이 이름을 붙였습니다.

💡 핵심 비유: 기존 벤치마크가 **"시험지 점수"**라면, 이 벤치마크는 **"실제 회사에서의 월급"**을 평가하는 것입니다.


🧐 2. 어떻게 평가할까요? (비유: "엄격한 심사위원단")

이 시험은 AI 가 답만 맞히면 되는 게 아닙니다. **전문가들이 만든 '체크리스트 (Rubric)'**를 통해 꼼꼼하게 따집니다.

  • 정보의 진실성: AI 가 엉터리 뉴스 (할루시네이션) 를 인용하면 감점입니다.
  • 논리의 흐름: 답이 맞더라도 과정이 엉망이면 점수를 주지 않습니다.
  • 규칙 준수: 법률이나 의료 규정을 위반하면 큰 감점 (네거티브 점수) 을 받습니다.
  • 실용성: 이론적으로 맞지만 현실에서 쓸모없는 답은 점수를 못 받습니다.

마치 고급 레스토랑의 미쉐린 가이드처럼, 음식 (답변) 이 맛있을 뿐만 아니라 위생, 서비스, 분위기 (규칙 준수) 까지 모두 완벽해야 별을 줍니다.


🤖 3. 주요 실험 결과: AI 들은 어떻게 했을까요?

연구팀은 최신 AI 모델 35 개를 이 시험에 출시시켰습니다. 결과는 놀랍고도 씁쓸했습니다.

🏆 1등은 누구?

Claude-Opus-4.6이 가장 좋은 성적을 냈습니다. 특히 웹 검색 (Web Search) 기능을 켜고 정보를 찾아다니게 했을 때 성능이 폭발적으로 좋아졌습니다.

⚠️ 하지만 함정이 있습니다!

  • 검색은 양날의 검: 검색을 하면 좋은 AI 는 더 좋아지지만, 약한 AI 는 오히려 망가집니다.
    • 비유: 똑똑한 학생은 도서관 (검색) 에서 필요한 책을 찾아와서 논문을 잘 쓰지만, 공부하지 않은 학생은 도서관에서 엉뚱한 책만 읽고 혼란스러워하며 엉터리 글을 씁니다.
  • 전문가 vs AI: 최고의 AI 도 아직 인간 전문가의 100% 를 따라잡지는 못했습니다. 특히 금융 (Finance) 분야는 매우 까다로워 많은 AI 가 고전했습니다.
  • 깊은 연구 (Deep Research) 에이전트: "오래 생각하고 깊게 조사하는" 전용 AI 들이 있지만, 일반적인 AI 가 검색 기능을 잘 쓰는 것보다 더 뛰어난 것은 아니었습니다.

📉 4. AI 가 실패하는 이유 (실수 패턴)

AI 들이 왜 100 만 달러의 가치를 다 창출하지 못했을까요?

  1. 숫자 계산 실수: 금융 보고서에서 숫자를 잘못 읽거나 계산하는 실수가 많았습니다. (실제 돈이 걸린 일인데 계산기를 못 믿는 꼴입니다.)
  2. 규칙 무시: 법률이나 의료 지침 같은 '강력한 규칙'을 잊어버리고 제멋대로 답을 냅니다.
  3. 정보의 홍수: 검색을 너무 많이 해서 오히려 중요한 핵심 정보를 놓치거나, 서로 모순되는 정보에 혼란을 겪습니다.
  4. 표면적인 이해: 글은 잘 쓰지만, 문제의 본질을 깊이 있게 파악하지 못해 "실제 해결책"을 제시하지 못합니다.

💡 5. 결론: 우리는 어디까지 왔을까?

이 논문은 **"AI 가 이제 '챗봇'을 넘어 '실무자'가 될 준비를 하고 있지만, 아직은 인간 전문가의 도움을 받아야 한다"**는 메시지를 줍니다.

  • 기존의 평가: "AI 가 얼마나 똑똑한가?" (지식량)
  • 이 벤치마크의 평가: "AI 가 얼마나 신뢰할 수 있고, 돈을 벌게 해주는가?" (실무 능력)

**"AI 가 흩어진 6 펜스 (작은 돈) 를 줍는 법을 배우면, 인간은 달을 바라볼 자유를 얻는다"**는 말처럼, 이 벤치마크는 AI 가 현실 세계의 복잡한 문제를 해결해 주어, 인간이 더 창의적이고 중요한 일을 할 수 있도록 돕는 진정한 파트너가 될 수 있는지를 측정하는 첫걸음입니다.

지금 당장 AI 를 믿고 모든 일을 맡기기엔 아직 위험하지만, 검색 기능을 잘 활용하고 전문가의 감독을 받는다면 AI 는 이미 엄청난 경제적 가치를 만들어내고 있다는 것이 이 연구의 결론입니다.