HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

이 논문은 Frontier LLM 평가 벤치마크인 '인류의 마지막 시험 (HLE)'의 노이즈 문제를 해결하기 위해 전문가 검토와 모델 기반 교차 검증을 통해 문제를 검증하고 수정한 'HLE-Verified'를 구축하여, 오류 수정을 통해 모델 평가의 정확성과 신뢰성을 크게 향상시켰음을 보여줍니다.

Weiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xander Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

인류의 마지막 시험 (HLE) 을 다시 검사하다: "HLE-Verified" 프로젝트 설명

이 논문은 인공지능 (AI) 의 능력을 측정하는 가장 어려운 시험지인 **'인류의 마지막 시험 (HLE)'**에 숨겨진 문제점들을 찾아내고, 이를 깨끗하게 고쳐서 다시 만든 **'HLE-Verified'**라는 새로운 버전의 이야기를 담고 있습니다.

어려운 학술 용어 대신, 거대한 도서관과 낡은 시험지에 비유하여 쉽게 설명해 드리겠습니다.


1. 왜 이 연구가 필요했을까요? (문제 상황)

상상해 보세요. 전 세계의 가장 똑똑한 AI 들이 치르는 **'최고의 시험'**이 있습니다. 이 시험은 수학, 과학, 인문학 등 모든 분야의 어려운 문제들로 구성되어 있어, AI 가 얼마나 똑똑한지 가늠하는 '최종 관문' 역할을 합니다.

하지만 최근 사람들이 이 시험지를 자세히 들여다보니 상당히 엉망인 점들이 발견되었습니다.

  • 문제 자체가 모호하거나: "이 문제를 풀려면 어떤 가정을 해야 하지?"라고 AI 가 혼란스러워하는 경우.
  • 정답이 틀린 경우: 정답지 (Answer Key) 에 오답이 적혀 있거나, 단위가 엉뚱하게 적힌 경우.
  • 해설이 논리적으로 맞지 않는 경우: 풀이 과정이 말도 안 되거나, 정답과 해설이 서로 모순되는 경우.

이런 '오류'들이 섞여 있으면, AI 가 실제로 똑똑해서 문제를 푼 것인지, 아니면 시험지 자체의 실수를 운 좋게 맞춘 것인지 구별할 수 없습니다. 마치 오류가 많은 답안지를 가지고 학생들의 성적을 매기는 것과 같습니다.

2. 연구팀은 무엇을 했나요? (해결책: HLE-Verified)

연구팀은 이 '오류투성이 시험지'를 두 단계에 걸쳐 꼼꼼하게 검사하고 고쳤습니다. 이를 **'HLE-Verified(검증된 HLE)'**라고 부릅니다.

🛠️ 1 단계: "이건 그대로 써도 될까?" (검증)

먼저 시험지 2,500 문항을 하나씩 살펴봤습니다.

  • **전문가 (인간)**와 최고급 AI가 함께 문제를 풀고 정답을 확인했습니다.
  • 문제도, 정답도, 해설도 완벽하게 맞는 668 문항은 '검증된 금메달 문항 (Gold Subset)'으로 선정했습니다.

🔧 2 단계: "수정 가능한 건 고쳐보자!" (수정)

나머지 문항 중에는 문제가 있지만 고칠 수 있는 것들이 많았습니다.

  • 예를 들어, "정답이 5 이어야 하는데 6 으로 적혀 있다"거나 "단위가 빠져 있다"는 식의 오류는 전문가 두 팀이 독립적으로 고치고, 다시 AI 로 검증했습니다.
  • 이렇게 1,143 문항을 완벽하게 고쳐서 '수정 및 인증 문항'으로 만들었습니다.

📝 3 단계: "고칠 수 없는 건 따로 표시" (불확실성)

아무리 노력해도 정답을 확정할 수 없거나, 너무 모호해서 고칠 수 없는 689 문항은 버리지 않고 **'불확실 문항'**으로 따로 분류했습니다. 이 문항들에는 "이 문제는 어떤 전문가의 도움이 필요하다"는 태그를 달아두었습니다.


3. 어떤 결과가 나왔나요? (성과)

이렇게 고쳐진 시험지 (HLE-Verified) 로 다시 AI 들을 시험해 보니 놀라운 변화가 있었습니다.

  • 성적이 크게 올라갔습니다: 원래 시험지 (HLE) 에서 AI 들이 틀렸던 문제 중 상당수가 사실은 시험지 오류 때문이었습니다. 고친 시험지에서는 AI 들의 평균 점수가 7~10 점이나 올랐습니다.
  • 어려운 문제일수록 효과가 큽니다: 특히 원래 문제나 정답이 잘못되었던 부분에서는 AI 들의 점수가 30~40 점이나 급상승했습니다. 이는 AI 가 실제로는 그 능력을 가지고 있었지만, 엉터리 시험지 때문에 점수를 깎였던 것입니다.
  • AI 의 '자신감'도 더 정확해졌습니다: 원래 시험지에서는 AI 가 "정답을 확신한다"고 말해도 틀리는 경우가 많았습니다 (시험지가 엉망이라서). 하지만 고친 시험지에서는 AI 가 정답일 때 확실히 자신 있게 답하고, 틀릴 때는 망설이는 등 자신감 (Confidence) 과 정답의 관계가 훨씬 자연스럽게 변했습니다.

4. 이 연구의 핵심 메시지

이 논문은 단순히 시험지를 고른 것을 넘어, **"AI 의 능력을 측정할 때는 시험지 자체의 질이 얼마나 중요한가"**를 보여줍니다.

  • 비유하자면: 달리기 선수를 평가할 때, 경로에 구멍이 나 있거나 표지판이 잘못된 트랙에서 뛰게 하면 선수의 실력을 제대로 알 수 없습니다. HLE-Verified 는 그 구멍을 메우고 표지판을 바로잡은 깨끗한 트랙을 제공한 것입니다.
  • 이제 우리는 AI 가 정말로 똑똑한지, 아니면 단순히 시험지 실수를 운 좋게 맞춘 것인지 더 정확하게 알 수 있게 되었습니다.

요약

"HLE-Verified"는 엉망이었던 AI 시험지를 전문가와 AI 가 함께 꼼꼼히 검사하고, 틀린 부분을 고쳐서 다시 만든 '정직한 시험지'입니다. 이 시험지를 쓰니 AI 들의 진짜 실력이 더 잘 드러났고, 우리가 AI 를 평가하는 방식이 훨씬 더 신뢰할 수 있게 되었습니다.