Are Large Language Models Truly Smarter Than Humans?

본 논문은 공개 리더보드에서 인간을 능가하는 것으로 보이는 대형 언어 모델들의 실제 성능이 훈련 데이터와 평가 데이터 간의 중첩 (데이터 오염) 으로 인해 과장되었을 가능성을, 6 개 최첨단 모델에 대한 다각도의 오염 감지 실험을 통해 규명하고 있습니다.

Eshwar Reddy M, Sourav Karmakar

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "시험지 훔쳐보기 vs 진짜 실력"

상상해 보세요. 어떤 학생이 시험을 치르러 갔는데, 시험지 전체를 미리 보고 답을 외워갔다면 그 학생은 100 점 만점을 받을 수 있습니다. 하지만 그 학생이 정말로 그 지식을 이해하고 있는 걸까요? 아니면 단순히 암기만 한 걸까요?

이 논문은 AI 들이 바로 그런 '미리 시험지를 훔쳐본 학생'일 가능성을 강력하게 지적합니다.

🔍 저자들이 한 세 가지 실험 (검사 방법)

저자들은 6 개의 최신 AI 모델 (GPT-4o, DeepSeek 등) 을 대상으로 세 가지 다른 방식으로 검사를 했습니다.

1. 실험 1: "인터넷에 시험지가 떠돌아다니는가?" (외부 검색)

  • 방법: AI 가 학습한 데이터에 실제 시험 문제 (MMLU) 가 그대로 올라와 있는지 인터넷 검색을 통해 확인했습니다.
  • 결과: 놀랍게도 **전체 문제의 약 14%**가 인터넷에 이미 떠돌아다니고 있었습니다. 특히 과학 (STEM) 과 철학 분야에서 이 비율이 훨씬 높았습니다 (철학은 무려 67% 까지!).
  • 비유: "시험지가 교실 밖 (인터넷) 에 구석구석 붙어 있어서, 학생들이 시험 전에 다 보고 왔을 가능성이 매우 높다"는 뜻입니다.

2. 실험 2: "문장을 살짝 바꿔보면 어떨까?" (표면적 변화)

  • 방법: 같은 의미지만 단어를 살짝 바꾸거나 질문 방식을 돌려서 AI 에게 다시 물어봤습니다. (예: "법률가" 대신 "법을 연구하는 사람"이라고 표현)
  • 결과: AI 들은 문장이 조금만 바뀌어도 정답을 못 맞추는 경우가 많았습니다. 특히 법률이나 윤리 분야에서는 점수가 20% 가까이 떨어졌습니다.
  • 비유: "시험지를 그대로 외운 학생은, 문제가 조금만 다르게 쓰여도 당황해서 틀립니다. 하지만 진짜로 개념을 이해한 학생은 wording 이 달라도 같은 답을 맞힙니다." AI 들은 대부분 전자였습니다.

3. 실험 3: "머릿속에 시험지가 남아있는가?" (행동 분석)

  • 방법: AI 가 문제를 풀 때, 잘못된 보기 (오답) 의 내용을 다시 말해달라거나 질문의 핵심 단어를 지워달라고 요청했습니다. 만약 AI 가 그 오답의 정확한 문장을 기억하고 있다면, 그것은 '암기'한 것입니다.
  • 결과: 질문 10 개 중 7 개 이상에서 AI 가 오답의 내용을 기억하고 있었습니다.
  • 특이한 발견: 'DeepSeek-R1'이라는 모델은 정답을 그대로 외우진 않았지만, 오답의 의미와 구조는 완벽하게 기억하고 있었습니다. 마치 "정답은 A 가 아니야, B 가 틀렸어"는 건 기억하지만, "B 가 왜 틀렸는지"는 문장 그대로는 못 외우는 상태였습니다.

💡 이 논문이 말하려는 결론

  1. 점수는 과장되었습니다: AI 가 시험에서 높은 점수를 받은 것은 '지식' 때문이 아니라, '미리 문제를 보고 외운 것' 때문일 가능성이 매우 큽니다.
  2. 실제 상황에서는 무너집니다: 인터넷에 떠도는 문제와 똑같은 질문만 하면 잘 맞히지만, 조금만 상황이 달라지거나 (실제 법률 판례나 의료 상황처럼) 질문을 다르게 하면 AI 는 엉뚱한 답을 하거나 헛소리 (할루시네이션) 를 합니다.
  3. 우리는 속고 있습니다: "AI 가 인간보다 똑똑하다"는 뉴스는, AI 가 시험지를 미리 보고 본 시험 결과일 뿐, 진짜 지능을 측정한 것이 아닐 수 있습니다.

🚨 우리가 무엇을 해야 할까?

이 논문의 저자들은 다음과 같이 제안합니다:

  • AI 회사들은 솔직해야 합니다: "우리 AI 는 이 시험에서 90 점 맞았습니다"라고 할 때, "그 시험 문제를 미리 봤을 가능성이 14% 입니다"라고 함께 알려야 합니다.
  • 새로운 시험이 필요합니다: 더 이상 공개된 시험지를 쓰지 말고, AI 가 절대 볼 수 없는 새로운 문제로 시험을 치러야 진짜 실력을 알 수 있습니다.
  • 신중하게 믿어야 합니다: 법률, 의료 등 중요한 분야에서 AI 를 쓸 때는 "시험 점수"만 믿지 말고, 실제 상황에 얼마나 잘 적응하는지 다시 검증해야 합니다.

한 줄 요약:

"AI 가 인간보다 똑똑하다는 건, 시험지를 미리 보고 답을 외운 학생이 100 점 받은 것과 다를 바 없습니다. 진짜 실력을 보려면 새로운 시험을 치러야 합니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →