DeepQuestion: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 언어 모델 (LLM, AI) 이 정말로 똑똑한가?"**라는 근본적인 질문에서 시작합니다.

지금까지 AI 는 시험 문제에서 거의 만점을 받아왔습니다. 하지만 저자들은 "이 점수가 진짜 지능을 보여주는 걸까, 아니면 그냥 시험 문제를 외운 것일 뿐일까?"라고 의심했습니다.

이 논문의 핵심 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: "시험은 잘 보는데, 실전에서는 당황한다"

지금까지의 AI 평가는 마치 학교 시험과 비슷했습니다.

기존 방식: "사과가 3 개, 배가 2 개면 총 몇 개?" 같은 깔끔하고 정답이 명확한 문제를 냈습니다.
현실: AI 는 이 문제를 99% 맞췄습니다. 하지만 실제 삶은 그렇게 깔끔하지 않습니다.
- 비유: AI 가 "수학 문제"는 잘 풀지만, "주방에서 요리할 때 재료가 부족하고 불이 약해졌을 때 어떻게 요리할지" 같은 실제 상황에서는 엉뚱한 답을 내놓거나 아예 멈춰버립니다.

저자들은 "AI 가 진짜로 이해했는지, 아니면 패턴만 외웠는지"를 확인하기 위해 더 어렵고 복잡한 현실 같은 문제를 만들어야 한다고 주장합니다.

2. 해결책: "블룸의 분류학"을 활용한 'DeepQuestion'

저자들은 교육학에서 오랫동안 쓰여온 **'블룸의 분류학 (Bloom's Taxonomy)'**이라는 개념을 차용했습니다. 이를 레고 블록에 비유해 볼까요?

기억 (Remember): 레고 조각을 이름만 부르는 것. (AI 가 가장 잘함)
이해 (Understand): 레고 조각의 모양을 설명하는 것.
적용 (Apply): 실제 상황에 맞춰 레고로 자동차를 조립하는 것. (여기서부터 AI 가 어려워짐)
창의 (Create): 레고 조각을 이용해 아예 새로운 놀이감을 발명하는 것. (AI 가 가장 취약함)

이 논문은 **'DeepQuestion'**이라는 새로운 도구를 소개합니다. 이 도구는 기존의 쉬운 문제를 **실제 상황 (Scenario)**이나 새로운 질문 만들기 (Instruction) 형태로 변형시켜, AI 가 '적용'과 '창의' 단계에서 얼마나 못하는지 시험합니다.

3. 실험 방법: 두 가지 미션

저자들은 AI 에게 두 가지 미션을 주었습니다.

미션 1: "상황극 하기" (Question-to-Scenario, Q2S)

원래 문제: "속도 5m/s 로 움직이는 물체의 위치 공식을 써라."
DeepQuestion 변형: "비행기 날개에 달린 드론이 5m/s 로 날다가 바람에 흔들리면서 공기 질을 측정하고 있습니다. 이때 드론의 위치를 구하는 공식을 찾아보세요. (단, 바람의 세기나 센서 오차 같은 헛수치는 무시하세요.)"
의도: AI 가 불필요한 정보 (바람, 센서 오차) 를 걸러내고, 핵심 정보만 뽑아내어 실제 상황에 지식을 적용할 수 있는지 봅니다.

미션 2: "스스로 문제 만들기" (Question-to-Instruction, Q2I)

미션: "정답이 $x = 5t + t^2$ 가 되는 물리 문제를 직접 만들어봐."
의도: 답을 구하는 게 아니라, 답을 먼저 정하고 그에 맞는 현실적인 상황을 설계해야 합니다. 이는 AI 가 개념을 얼마나 깊이 이해하고 있는지, 그리고 창의적으로 새로운 것을 만들어낼 수 있는지 테스트합니다.

4. 충격적인 결과: "점수가 70% 이상 떨어졌다!"

이 새로운 방식으로 AI 를 시험하니 결과가 완전히 달라졌습니다.

기존 시험: 대부분의 AI 가 90~100% 정답률을 보였습니다.
DeepQuestion 시험:
- 상황극 (Q2S): 점수가 조금 떨어졌습니다. (불필요한 정보에 혼란을 느낀 것)
- 문제 만들기 (Q2I): 점수가 70% 이상 폭락했습니다. 어떤 AI 는 10%도 못 맞췄습니다.
- 비유: "수학 문제를 푸는 것"은 잘하지만, "수학 문제를 직접 출제하는 것"은 전혀 못한다는 뜻입니다.

이는 AI 가 **진짜 지능 (이해와 창의)**보다는 **패턴 인식 (기억과 암기)**에 의존하고 있음을 보여줍니다.

5. 결론: "진짜 지능을 위한 새로운 나침반"

이 논문의 핵심 메시지는 다음과 같습니다.

현재의 점수는 과장되었습니다. AI 가 시험 점수가 높다고 해서 진짜로 세상을 이해하는 건 아닙니다.
새로운 평가 기준이 필요합니다. AI 가 복잡한 현실 문제나 창의적인 작업을 할 수 있는지 확인하려면, 'DeepQuestion'처럼 **인지적 깊이 (Cognitive Depth)**를 측정하는 도구가 필요합니다.
미래의 방향: AI 개발자들은 이제 "더 많은 데이터를 외우게" 하는 것이 아니라, "실제 상황에 적용하고 새로운 것을 창조하게" 만드는 방향으로 발전해야 합니다.

한 줄 요약:

"지금까지 AI 는 시험지만 보면 천재처럼 보였지만, 실제 삶이라는 무대에서는 당황스러운 모습을 보였습니다. 이 논문은 AI 가 진짜로 똑똑한지 확인하기 위해, 실제 상황과 창의력을 요구하는 새로운 시험을 제안합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대형 언어 모델 (LLM) 은 GSM8K, MMLU, GPQA 와 같은 기존 표준 벤치마크에서 인간 수준의 성능을 보여주고 있습니다. 그러나 이러한 점수 포화 상태는 모델이 실제 세계의 복잡한 문제에 대해 얼마나 잘 일반화되는지를 반영하지 못합니다.

현실적 한계: 기존 벤치마크는 주로 '기억 (Recall)'과 '이해 (Comprehension)'와 같은 하위 인지 능력을 측정하는 반면, 실제 의사결정에 필요한 '분석', '평가', '창의적 종합'과 같은 고차원적 추론 능력을 간과합니다.
과거 연구의 부족: 모델이 구조화된 학술 데이터에서는 완벽하게 작동하지만, 불필요한 정보가 섞이거나 맥락이 모호한 실제 시나리오 (예: 새로운 수학 경시대회, 임상 시나리오) 에서는 심각한 성능 저하를 보입니다. 이는 모델이 진정한 이해가 아닌 패턴 인식에 의존하고 있음을 시사합니다.

2. 방법론 (Methodology)

저자들은 **블룸의 분류학 (Bloom's Taxonomy)**을 기반으로 한 DeepQuestion이라는 자동화 및 확장 가능한 프레임워크를 제안합니다. 이 프레임워크는 기존 데이터셋의 인지적 복잡성을 체계적으로 증대시키는 두 가지 핵심 변환 파이프라인을 사용합니다.

A. 핵심 변환 파이프라인

질문 - 시나리오 변환 (Q2S: Question-to-Scenario)
- 목표: 블룸 분류학의 '적용 (Apply)' 수준 달성.
- 방식: 기존 단순한 질문을 실제 세계의 서사적 시나리오로 변환합니다. 이 과정에서 문제 해결에 불필요한 정보 (distractions) 를 포함시켜 모델이 관련 정보를 추출하고 맥락에 맞게 지식을 적용해야 하도록 합니다.
- 예시: "물체의 위치 - 시간 방정식을 구하라"는 질문을 "풍향이 있는 날 드론이 이륙하여 공기 질 데이터를 수집하는 상황"으로 변환하되, 핵심 물리 법칙은 동일하게 유지합니다.
질문 - 지시문 변환 (Q2I: Question-to-Instruction)
- 목표: 블룸 분류학의 '평가 (Evaluate)' 및 '창의 (Create)' 수준 달성.
- 방식: 모델이 주어진 해답 경로를 바탕으로 새로운 질문을 설계하도록 지시합니다. 이는 모델이 도메인 지식을 비판적으로 평가하고, 논리적 구조를 세우며, 창의적으로 새로운 문제를 생성하는 능력을 평가합니다.
- 예시: "위치 - 시간 방정식 $x = 5t + t^2$ 를 갖는 물리 문제를 설계하라"는 지시를 통해 모델이 구체적인 상황과 수치를 창의적으로 구성하게 합니다.

B. 자동 프롬프트 생성 파이프라인

프로세스: 프롬프트 생성기 (Generator) LLM 과 프롬프트 평가기 (Evaluator) LLM 간의 대화형 반복 과정을 통해 각 도메인 (수학, 물리 등) 에 최적화된 프롬프트를 자동 생성합니다.
검증: 생성된 프롬프트는 사전 정의된 기준에 따라 0~10 점으로 평가되며, 임계점 (예: 8 점) 을 넘으면 인간 전문가의 최종 검토를 거쳐 DeepQuestion 데이터셋을 생성하는 데 사용됩니다.

3. 주요 기여 (Key Contributions)

DeepQuestion 프레임워크 제안: 기존 데이터셋을 블룸의 분류학에 기반하여 인지적 깊이가 다른 시나리오 기반 및 지시문 기반 문제로 변환하는 체계적인 방법론을 제시했습니다.
DeepQuestion 데이터셋 구축: GSM8K(수학) 와 이란 대학 입학시험 물리 문제 (페르시아어) 를 기반으로 한 고품질의 심화 질문 데이터셋을 공개했습니다.
포괄적인 LLM 평가: 일반 목적 모델 (General-purpose) 과 추론 특화 모델 (Reasoning-focused) 을 포함한 10 개의 최신 LLM 을 대상으로 한 광범위한 실험을 통해, 모델의 인지적 한계를 정량화했습니다.

4. 실험 결과 (Results)

10 개의 주요 LLM(Gemini, GPT-4, Llama, DeepSeek, Qwen 등) 을 대상으로 한 실험 결과는 다음과 같은 통찰을 제공합니다.

성능 급감: 작업의 인지적 수준이 높아질수록 모델의 정확도는 급격히 하락했습니다.
- Q2S (적용 수준): 기존 질문 대비 정확도가 일부 하락했으나, 일부 모델은 유사하거나 향상된 성능을 보였습니다.
- Q2I (창의/평가 수준): 가장 극적인 성능 저하가 관찰되었습니다. 기존 벤치마크에서 95% 이상의 정확도를 보였던 모델들이 Q2I 작업에서는 최대 70% 까지 정확도가 하락했습니다 (일부 모델은 38% 미만).
모델 유형 비교: 추론 특화 모델 (Reasoning LLMs) 이 일반 목적 모델보다 Q2I 에서 상대적으로 나은 성능을 보였으나, 여전히 고차원적 추론 (창의적 문제 생성) 에서는 심각한 한계를 드러냈습니다.
질문 품질 분석: 모델이 생성한 질문은 '추론 요구도', '물리적 현실성', '해답 노출 (Solution Spoiling)' 등의 측면에서 인간이 만든 원본 질문보다 품질이 현저히 낮았습니다.
언어적 요인 배제: 페르시아어와 영어 간 번역 실험을 통해 성능 저하가 언어적 장벽이 아닌 인지적 복잡성 증가에서 비롯됨을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

벤치마크의 재정의: 현재의 LLM 벤치마크는 모델의 진정한 추론 능력을 과대평가하고 있음을 시사합니다. DeepQuestion 은 단순한 점수 경쟁이 아닌, 모델이 실제 세계의 복잡성과 불확실성을 처리할 수 있는지 평가하는 새로운 기준을 제시합니다.
향후 개발 방향: 이 프레임워크는 법학, 의학, 공학 등 다양한 분야에 적용 가능하여 도메인 특화 추론 능력을 평가하는 데 활용될 수 있습니다.
핵심 메시지: LLM 의 발전은 단순한 패턴 매칭을 넘어, 인간과 유사한 인지적 깊이를 가진 진정한 이해와 창의적 문제 해결 능력을 갖추는 방향으로 나아가야 하며, 이를 측정하기 위해 **인지적으로 다양하고 맥락이 풍부한 평가 프레임워크 (DeepQuestion)**가 필수적입니다.

이 논문은 AI 평가 방법론에 교육 심리학 (블룸의 분류학) 을 접목하여, LLM 의 '생각하는 능력 (Thinking Capability)'에 대한 더 정교하고 현실적인 진단 도구를 제공했다는 점에서 큰 의의가 있습니다.