Interactive Benchmarks

Each language version is independently generated for its own context, not a direct translation.

🎒 1. 기존 시험의 문제점: "암기된 정답지"

지금까지 AI 를 평가할 때는 GSM8K나 MMLU 같은 고정된 시험지를 주로 썼습니다.

비유: 마치 학생에게 "수학 문제 100 개를 외워서 답만 말해보라"고 하는 것과 같습니다.
문제점: AI 가 문제를 풀기 위해 '정보를 찾아내는 과정'을 거치지 않고, 그냥 암기된 답을 뱉어낼 뿐입니다. 마치 시험지 정답을 외운 학생처럼, 실제 상황 (예: 새로운 문제나 복잡한 대화) 이 나오면 당황하고 엉뚱한 답을 내놓을 수 있습니다. 또한, AI 가 "이 정보가 부족하니 더 물어봐야겠다"라고 생각할 기회를 주지 않습니다.

🕵️‍♂️ 2. 새로운 방법: "Interactive Benchmarks (상호작용 벤치마크)"

이 논문은 AI 의 진짜 지능을 측정하기 위해 **"상호작용"**을 강조합니다.

핵심 아이디어: AI 가 단순히 답을 외우는 게 아니라, "무엇을 물어볼지, 언제 물어볼지, 어떻게 정보를 모을지" 스스로 결정하는 능력을 봐야 합니다.
비유:
- 기존: "이 그림이 뭐야?"라고 물으면 정답만 말함.
- 새로운 방식: "이 그림을 보고 내가 모르는 게 뭐가 있을까? 어떤 질문을 던져야真相 (진실) 을 알 수 있을까?"라고 스스로 고민하며 스무고개 게임을 하는 것.

이 새로운 평가 체계는 크게 두 가지 게임으로 나뉩니다.

🧩 게임 1: "Interactive Proofs (상호작용 증명)" - 진실 찾기

이 게임은 논리와 수학 문제를 다룹니다. AI 는 '플레이어'가 되고, 모든 정답을 알고 있는 '심판 (Judge)'과 대화합니다.

상황: AI 는 정답을 모릅니다. 하지만 심판은 "네가 맞으면 'YES', 틀리면 'NO'"라고만 알려줍니다.
비유: "스무고개" 게임을 상상해보세요.
- AI 는 "그게 동물인가요?" "그게 집 안에 있나요?"라고 질문을 던져가며 정답을 추리해야 합니다.
- 한계: 질문 횟수 (예산) 가 정해져 있습니다. 20 번만 물어볼 수 있다면, 어떻게 하면 가장 적은 질문으로 정답을 맞출 수 있을까요?
결과: 많은 최신 AI 들이 이 게임에서 고전했습니다. 정답을 외우지 못했기 때문에, 스스로 질문을 만들어가며 진실을 찾아내는 능력이 부족하다는 것이 드러났습니다.

🃏 게임 2: "Interactive Games (상호작용 게임)" - 전략 게임

이 게임은 포커나 **신뢰 게임 (Trust Game)**처럼 상대방이 있는 상황을 다룹니다.

포커 (Texas Hold'em):
- 비유: 상대방의 표정을 보고, "이 사람이 bluff(속임수) 를 치는 건가?"라고 추리해야 합니다.
- AI 는 자신의 패만 보고, 상대방의 행동을 관찰하며 "지금 베팅을 늘려야 할까, 아니면 포기해야 할까?"를 결정해야 합니다.
- 결과: Gemini가 가장 잘했습니다. 위험을 감수하면서도 계산적으로 플레이하는 능력이 뛰어났습니다.
신뢰 게임 (Trust Game):
- 비유: "내가 너를 믿고 도와주면, 너도 나를 도와줄까?"를 반복하는 게임입니다.
- 상대방이 배신하면 나도 배신하고, 협력하면 나도 협력하는 등 상대방의 성향을 파악하고 적응하는 능력이 중요합니다.
- 결과: Qwen3와 GPT-5가 상대방의 행동을 잘 예측하고 협력 관계를 유지하며 높은 점수를 받았습니다.

💡 3. 결론: AI 는 아직 "질문하는 법"을 배워야 한다

이 논문의 가장 중요한 메시지는 다음과 같습니다.

"지금까지의 AI 는 **'정답을 아는 학생'**은 될 수 있었지만, **'지식 없는 상황에서 정보를 찾아내는 탐정'**이 되기는 아직 부족하다."

현재 상태: AI 는 정해진 문제집은 잘 풀지만, 정보가 부족한 현실 세계에서는 무엇을 물어봐야 할지 몰라 당황합니다.
미래 과제: AI 가 스스로 "내가 모르는 게 뭐지? 이걸 물어봐야겠다"라고 생각하며 능동적으로 정보를 수집하는 능력을 키워야 진짜 지능이라고 할 수 있습니다.

한 줄 요약:

"AI 가 정답을 외우는 것보다, 정답을 찾기 위해 스스로 질문하고 전략을 세우는 능력을 평가해야 진짜 똑똑한지 알 수 있다!"

Interactive Benchmarks

🎒 1. 기존 시험의 문제점: "암기된 정답지"

🕵️‍♂️ 2. 새로운 방법: "Interactive Benchmarks (상호작용 벤치마크)"

🧩 게임 1: "Interactive Proofs (상호작용 증명)" - 진실 찾기

🃏 게임 2: "Interactive Games (상호작용 게임)" - 전략 게임

💡 3. 결론: AI 는 아직 "질문하는 법"을 배워야 한다

논문 요약: Interactive Benchmarks (상호작용 벤치마크)

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

A. 상호작용 증명 (Interactive Proofs) - 수렴형 (Convergent Regime)

B. 상호작용 게임 (Interactive Games) - 발산형 (Divergent Regime)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

Interactive Benchmarks

🎒 1. 기존 시험의 문제점: "암기된 정답지"

🕵️‍♂️ 2. 새로운 방법: "Interactive Benchmarks (상호작용 벤치마크)"

🧩 게임 1: "Interactive Proofs (상호작용 증명)" - 진실 찾기

🃏 게임 2: "Interactive Games (상호작용 게임)" - 전략 게임

💡 3. 결론: AI 는 아직 "질문하는 법"을 배워야 한다

논문 요약: Interactive Benchmarks (상호작용 벤치마크)

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

A. 상호작용 증명 (Interactive Proofs) - 수렴형 (Convergent Regime)

B. 상호작용 게임 (Interactive Games) - 발산형 (Divergent Regime)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers