DeepQuestion: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance

이 논문은 기존 벤치마크의 한계를 극복하고 LLM 의 실제 추론 능력을 평가하기 위해 블룸의 분류학에 기반한 'DeepQuestion' 프레임워크를 제안하며, 이를 통해 복잡한 현실 세계 과제에서 모델 성능이 급격히 저하됨을 입증했습니다.

Ali Khoramfar, Ali Ramezani, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi, Heshaam Faili

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 언어 모델 (LLM, AI) 이 정말로 똑똑한가?"**라는 근본적인 질문에서 시작합니다.

지금까지 AI 는 시험 문제에서 거의 만점을 받아왔습니다. 하지만 저자들은 "이 점수가 진짜 지능을 보여주는 걸까, 아니면 그냥 시험 문제를 외운 것일 뿐일까?"라고 의심했습니다.

이 논문의 핵심 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 문제: "시험은 잘 보는데, 실전에서는 당황한다"

지금까지의 AI 평가는 마치 학교 시험과 비슷했습니다.

  • 기존 방식: "사과가 3 개, 배가 2 개면 총 몇 개?" 같은 깔끔하고 정답이 명확한 문제를 냈습니다.
  • 현실: AI 는 이 문제를 99% 맞췄습니다. 하지만 실제 삶은 그렇게 깔끔하지 않습니다.
    • 비유: AI 가 "수학 문제"는 잘 풀지만, "주방에서 요리할 때 재료가 부족하고 불이 약해졌을 때 어떻게 요리할지" 같은 실제 상황에서는 엉뚱한 답을 내놓거나 아예 멈춰버립니다.

저자들은 "AI 가 진짜로 이해했는지, 아니면 패턴만 외웠는지"를 확인하기 위해 더 어렵고 복잡한 현실 같은 문제를 만들어야 한다고 주장합니다.

2. 해결책: "블룸의 분류학"을 활용한 'DeepQuestion'

저자들은 교육학에서 오랫동안 쓰여온 **'블룸의 분류학 (Bloom's Taxonomy)'**이라는 개념을 차용했습니다. 이를 레고 블록에 비유해 볼까요?

  • 기억 (Remember): 레고 조각을 이름만 부르는 것. (AI 가 가장 잘함)
  • 이해 (Understand): 레고 조각의 모양을 설명하는 것.
  • 적용 (Apply): 실제 상황에 맞춰 레고로 자동차를 조립하는 것. (여기서부터 AI 가 어려워짐)
  • 창의 (Create): 레고 조각을 이용해 아예 새로운 놀이감을 발명하는 것. (AI 가 가장 취약함)

이 논문은 **'DeepQuestion'**이라는 새로운 도구를 소개합니다. 이 도구는 기존의 쉬운 문제를 **실제 상황 (Scenario)**이나 새로운 질문 만들기 (Instruction) 형태로 변형시켜, AI 가 '적용'과 '창의' 단계에서 얼마나 못하는지 시험합니다.

3. 실험 방법: 두 가지 미션

저자들은 AI 에게 두 가지 미션을 주었습니다.

미션 1: "상황극 하기" (Question-to-Scenario, Q2S)

  • 원래 문제: "속도 5m/s 로 움직이는 물체의 위치 공식을 써라."
  • DeepQuestion 변형: "비행기 날개에 달린 드론이 5m/s 로 날다가 바람에 흔들리면서 공기 질을 측정하고 있습니다. 이때 드론의 위치를 구하는 공식을 찾아보세요. (단, 바람의 세기나 센서 오차 같은 헛수치는 무시하세요.)"
  • 의도: AI 가 불필요한 정보 (바람, 센서 오차) 를 걸러내고, 핵심 정보만 뽑아내어 실제 상황에 지식을 적용할 수 있는지 봅니다.

미션 2: "스스로 문제 만들기" (Question-to-Instruction, Q2I)

  • 미션: "정답이 x=5t+t2x = 5t + t^2가 되는 물리 문제를 직접 만들어봐."
  • 의도: 답을 구하는 게 아니라, 답을 먼저 정하고 그에 맞는 현실적인 상황을 설계해야 합니다. 이는 AI 가 개념을 얼마나 깊이 이해하고 있는지, 그리고 창의적으로 새로운 것을 만들어낼 수 있는지 테스트합니다.

4. 충격적인 결과: "점수가 70% 이상 떨어졌다!"

이 새로운 방식으로 AI 를 시험하니 결과가 완전히 달라졌습니다.

  • 기존 시험: 대부분의 AI 가 90~100% 정답률을 보였습니다.
  • DeepQuestion 시험:
    • 상황극 (Q2S): 점수가 조금 떨어졌습니다. (불필요한 정보에 혼란을 느낀 것)
    • 문제 만들기 (Q2I): 점수가 70% 이상 폭락했습니다. 어떤 AI 는 10%도 못 맞췄습니다.
    • 비유: "수학 문제를 푸는 것"은 잘하지만, "수학 문제를 직접 출제하는 것"은 전혀 못한다는 뜻입니다.

이는 AI 가 **진짜 지능 (이해와 창의)**보다는 **패턴 인식 (기억과 암기)**에 의존하고 있음을 보여줍니다.

5. 결론: "진짜 지능을 위한 새로운 나침반"

이 논문의 핵심 메시지는 다음과 같습니다.

  1. 현재의 점수는 과장되었습니다. AI 가 시험 점수가 높다고 해서 진짜로 세상을 이해하는 건 아닙니다.
  2. 새로운 평가 기준이 필요합니다. AI 가 복잡한 현실 문제나 창의적인 작업을 할 수 있는지 확인하려면, 'DeepQuestion'처럼 **인지적 깊이 (Cognitive Depth)**를 측정하는 도구가 필요합니다.
  3. 미래의 방향: AI 개발자들은 이제 "더 많은 데이터를 외우게" 하는 것이 아니라, "실제 상황에 적용하고 새로운 것을 창조하게" 만드는 방향으로 발전해야 합니다.

한 줄 요약:

"지금까지 AI 는 시험지만 보면 천재처럼 보였지만, 실제 삶이라는 무대에서는 당황스러운 모습을 보였습니다. 이 논문은 AI 가 진짜로 똑똑한지 확인하기 위해, 실제 상황과 창의력을 요구하는 새로운 시험을 제안합니다."