SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

이 논문은 OpenAI 의 SimpleQA 벤치마크가 가진 노이즈, 편향 및 중복 문제를 해결하기 위해 엄격한 필터링 과정을 거쳐 개발된 'SimpleQA Verified'라는 새로운 사실성 평가 기준을 소개하고, 이를 통해 Gemini 2.5 Pro 가 GPT-5 를 포함한 다른 최첨단 모델들을 능가하는 55.6 의 F1 점수를 기록했음을 보고합니다.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "SimpleQA Verified": AI 의 기억력 시험지를 다시 만든 이야기

이 논문은 인공지능 (AI) 이 얼마나 정확한 사실을 기억하고 있는지 측정하는 새로운 **'시험지 (벤치마크)'**를 소개합니다. 기존 시험지가 너무 쉬워지거나, 문제 자체가 엉망이어서 AI 의 실력을 제대로 가늠할 수 없었던 문제를 해결하기 위해 만들어졌습니다.

비유하자면, 기존 시험지는 '정답이 찍혀 있는 문제집'처럼 AI 가 암기해서 점수를 따기 좋게 되어 있었지만, 이번 'SimpleQA Verified'는 '정직한 감시관'이 감독하는 새로운 시험이라고 생각하시면 됩니다.


1. 왜 새로운 시험지가 필요했을까요? (기존의 문제점)

기존에 쓰이던 'SimpleQA'라는 시험지는 AI 개발자들에게 큰 인기를 끌었지만, 몇 가지 치명적인 결함이 있었습니다.

  • 문제 중복 (복제 문제): 같은 내용을 다른 말로만 바꾼 문제가 너무 많았습니다. 마치 수학 시험에서 "3+4 는?"과 "4+3 은?"을 따로 점수 내는 것과 비슷하죠.
  • 편향된 주제: 특정 주제 (예: 과학이나 특정 지역의 지명) 로만 문제가 몰려 있어, AI 가 특정 분야만 잘하고 나머지는 못 해도 고득점을 받을 수 있었습니다.
  • 오답 정답: 정답이 틀린 문제도 섞여 있었습니다. AI 가 정답을 말해도 "틀렸다"고 판정받거나, 반대로 틀린 답을 해도 "맞다"고 하는 혼란이 있었습니다.
  • AI 의 '암기' vs '이해': AI 가 문제를 외워서 맞추는 건지, 진짜 사실을 알고 있는지 구분이 어려웠습니다.

이런 문제들 때문에 AI 의 실력이 진짜로 좋아진 건지, 아니면 시험 문제 패턴만 외운 건지 알 수 없게 되었습니다.

2. 새로운 시험지 'SimpleQA Verified'는 어떻게 만들었나요?

연구팀 (구글 딥마인드) 은 이 문제를 해결하기 위해 4,326 개의 문제를 1,000 개의 '골든 문제'로 정제하는 과정을 거쳤습니다. 마치 보석 광산에서 돌을 다 치우고 진짜 보석만 골라내는 작업과 같습니다.

주요 정제 과정 (비유 포함):

  1. 출처 중복 제거 (한 번만 보자): 같은 웹사이트에서 가져온 문제를 하나만 남기고 나머지는 버렸습니다. (AI 가 특정 사이트 정보만 외우지 않게 하기 위함)
  2. 유사 문제 제거 (비슷한 건 하나만): "A 시의 설립 연도는?"과 "B 시의 설립 연도는?"처럼 너무 비슷한 문제들을 AI 가 구분할 수 있도록 걸러냈습니다.
  3. 웹사이트의 '입장권' 존중 (Robots.txt): 어떤 웹사이트는 "AI 가 내 정보를 학습하지 마라"고 명시한 경우가 있습니다. 이런 사이트의 문제는 아예 제외했습니다. (윤리적 문제 해결)
  4. 주제 균형 맞추기 (다양한 맛): 과학, 역사, 스포츠, 예술 등 모든 분야가 골고루 섞이도록 문제를 재배치했습니다.
  5. 정답 검증 (정직한 감시관): 정답이 모호하거나 여러 출처가 서로 다른 경우를 모두 제거하고, 숫자 문제의 경우 "오차 범위"를 정해 더 공정한 채점을 할 수 있게 만들었습니다.
  6. 난이도 조절 (최고의 문제만): 너무 쉬운 문제는 빼고, 최신 AI 모델들도 헷갈릴 만한 어려운 문제 1,000 개만 남겼습니다.

3. 채점 방식도 똑똑하게 바꿨어요

기존에는 AI 가 답을 조금만 다르게 말해도 "틀렸다"고 했거나, "모르겠다"고 하면 점수를 주지 않았습니다. 하지만 새로운 채점 시스템은 더 유연하고 정확합니다.

  • 숫자 문제: "100 명"이라고 답했는데 정답이 "98 명"이라면, 오차 범위를 고려해 "맞다"고 인정해 줍니다. (실생활에서 100 명과 98 명은 큰 차이가 없기 때문)
  • 회피하는 답변: AI 가 "정확한 숫자는 모르겠지만, 대략 100 명 정도일 거예요"라고 말하면, 그중에서 가장 유력한 답을 골라 채점합니다. 하지만 아예 답을 안 하면 "시도하지 않음"으로 처리합니다.

4. 결과는 어땠나요? (Gemini 2.5 Pro 의 승리)

이 새로운 시험지로 최신 AI 모델들을 시험해 본 결과, 구글의 'Gemini 2.5 Pro'가 1 위를 차지했습니다.

  • 점수: F1 스코어 (정확도와 완전성을 합친 점수) 가 **55.6%**로, 다른 최상위 모델들 (GPT-5, Claude Opus 4 등) 보다 높았습니다.
  • 의미: 이는 AI 가 단순히 시험 문제를 외운 것이 아니라, 진짜 사실을 기억하고 이해하는 능력이 향상되었음을 보여줍니다.

5. 결론: 왜 이 연구가 중요할까요?

이 논문은 AI 개발자들에게 **"진짜 실력을 측정하는 투명한 자"**를 제공했습니다.

  • 과도한 암기 방지: AI 가 시험 문제 패턴만 외우는 것을 막고, 진짜 지식을 쌓도록 유도합니다.
  • 할루시네이션 (거짓말) 줄이기: AI 가 엉뚱한 사실을 말하지 않도록 정확한 기준을 제시합니다.
  • 신뢰할 수 있는 AI: 우리가 일상생활이나 업무에서 AI 를 믿고 사용할 수 있는 기반을 마련해 줍니다.

한 줄 요약:

"기존 시험지는 AI 가 편하게 점수만 따게 했다면, SimpleQA Verified는 AI 가 진짜로 지식을 가지고 있는지, 공정하고 엄격한 감시관이 감독하는 새로운 시험지입니다."

이 새로운 시험지를 통해 AI 는 더 똑똑하고, 더 신뢰할 수 있는 친구가 되어갈 것입니다.