Evaluating the Search Agent in a Parallel World

Each language version is independently generated for its own context, not a direct translation.

🚗 문제: 왜 기존 시험은 실패했을까?

지금까지 AI 가 웹 검색을 잘하는지 테스트하려면, 실제 인터넷에서 정보를 찾아오게 했습니다. 하지만 이 방식에는 치명적인 세 가지 함정이 있었습니다.

**시험지가 너무 빨리 낡아짐 **(동적 노후화)
- 비유: 오늘 시험을 치르는데, 내일 뉴스에 "세계 기록이 깨졌다"는 기사가 나면, 어제 만든 정답이 오늘부터는 틀린 답이 됩니다. 인터넷은 살아있는 생물처럼 계속 변하기 때문에, 고정된 시험지는 금방 쓸모없어집니다.
**기억력 vs 검색 능력 구분이 안 됨 **(귀속 모호성)
- 비유: 학생이 문제를 풀었는데, 정답을 맞췄어요. 그런데 이게 **실제로 도서관 **(검색)을 했기 때문인지, 아니면 **과거에 암기해 둔 지식 **(모델의 기억)을 꺼내서 맞춘 건지 알 수 없습니다.
시험 비용과 질의 딜레마
- 비유: 진짜 어려운 문제를 만들려면 전문가가 수고해야 하지만, AI 가 만들어주는 문제는 논리적 구멍이 많거나 신뢰할 수 없는 경우가 많습니다.

🌟 해결책: '마인드 - 파라월드 (Mind-ParaWorld)'

연구팀은 이 문제를 해결하기 위해 **"평행우주 **(Parallel World)라는 가상의 공간을 만들었습니다.

🎭 비유: "미래의 가상의 학교"

상상해 보세요. AI 가 시험을 치르는 곳이 2026 년의 가상의 학교입니다.

실제 인터넷은 없습니다. 대신 AI 가 질문하면, **가상의 검색 엔진 **(ParaWorld Engine)이 답변을 줍니다.
핵심 규칙: 이 가상의 세계에는 **'불변의 법칙 **(Atomic Facts)이 있습니다. 예를 들어, "2027 년 니코 윌리엄스의 득점수는 11 점이다"라는 법칙이 있다면, AI 가 아무리 검색을 해도 그 숫자는 절대 변하지 않습니다.

이 방식의 장점은 무엇일까요?

기억력 차단: AI 가 훈련할 때 (2024 년 이전) 알 수 없는 미래의 사건을 물어보므로, 반드시 검색을 해야만 답을 찾을 수 있습니다.
공정한 시험: 검색 엔진이 어떤 결과를 보여줄지 연구팀이 완벽하게 통제하므로, AI 의 실력만 정확히 측정할 수 있습니다.
논리적 정합성: 가상의 세계는 모순이 없으므로, AI 가 엉뚱한 정보를 찾아오면 바로 틀린 것으로 판명됩니다.

🧩 시험 방식: 3 단계 난이도

연구팀은 AI 의 능력을 세 단계로 나누어 평가했습니다.

**단계 A **(정답 제공)
- 상황: 모든 필요한 정보 (법칙) 를 AI 에게 다 줍니다. 검색은 금지!
- 목적: "정보를 다 주면, AI 가 논리적으로 답을 잘 조합할 수 있는가?"를 봅니다. (대부분의 AI 가 잘합니다.)
**단계 B **(가이드 제공)
- 상황: 검색은 해야 하지만, "어떻게 검색해야 하는지" 힌트를 줍니다. (예: "한 번에 한 명만 검색해라")
- 목적: "검색을 잘할 수 있는가?"를 봅니다.
**단계 C **(완전 자율)
- 상황: 아무런 힌트 없이, AI 가 스스로 문제를 분석하고, 검색어를 만들고, 정보를 모으고 답을 내야 합니다.
- 목적: 진짜 실력을 봅니다.

🔍 연구 결과: AI 의 약점은 무엇일까?

1,600 개 이상의 가상의 문제를 통해 다양한 AI 를 테스트한 결과, 놀라운 사실이 드러났습니다.

정보 조합은 잘함: 정보를 다 주면 (단계 A) AI 는 아주 잘 답을 냅니다.
검색 전략은 약함: 하지만 스스로 정보를 찾아야 하는 단계 C 로 가면 성적이 뚝 떨어집니다.
주요 병목 현상:
1. 검색을 멈추는 타이밍을 모름: 필요한 정보가 아직 부족할 때, "아, 이제 알겠다!"라고 너무 일찍 결론을 내립니다.
2. 검색어 구성 실패: 복잡한 질문을 "한 번에 다 찾아줘"라고 요청하다가 실패합니다. (예: "A 와 B 의 점수를 비교해줘"라고 하면 실패하고, "A 점수 찾아줘", "B 점수 찾아줘"로 나누어야 합니다.)
3. 정보 부족 감지 실패: 검색 결과가 부족해도, "이 정도면 충분해"라고 착각하고 엉뚱한 답을 냅니다.

💡 결론: 무엇을 배울 수 있을까?

이 연구는 "AI 가 검색을 잘하려면, 단순히 검색을 더 많이 하는 게 아니라, '무엇을', '언제', '어떻게' 검색할지 전략을 세우는 능력이 훨씬 중요하다는 것을 보여줍니다.

한 줄 요약:

"지금의 AI 는 **도서관 **(검색)을 잘하지만, **어떤 책을 찾아야 할지 **(전략)를 스스로 기획하는 능력은 아직 부족합니다. 이 '평행우주' 시험은 그 부족함을 정확히 찾아내어, 더 똑똑한 AI 를 만드는 길을 열어줍니다."

이 연구는 Li Auto(리안) 의 기본 모델 팀에서 진행되었으며, 앞으로 더 정교하고 현실적인 AI 검색 에이전트를 개발하는 데 중요한 기준이 될 것입니다.

Evaluating the Search Agent in a Parallel World

🚗 문제: 왜 기존 시험은 실패했을까?

🌟 해결책: '마인드 - 파라월드 (Mind-ParaWorld)'

🎭 비유: "미래의 가상의 학교"

🧩 시험 방식: 3 단계 난이도

🔍 연구 결과: AI 의 약점은 무엇일까?

💡 결론: 무엇을 배울 수 있을까?

1. 문제 정의 (Problem)

2. 방법론 (Methodology: Mind-ParaWorld Framework)

핵심 구성 요소

MPW-Bench (벤치마크)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

Evaluating the Search Agent in a Parallel World

🚗 문제: 왜 기존 시험은 실패했을까?

🌟 해결책: '마인드 - 파라월드 (Mind-ParaWorld)'

🎭 비유: "미래의 가상의 학교"

🧩 시험 방식: 3 단계 난이도

🔍 연구 결과: AI 의 약점은 무엇일까?

💡 결론: 무엇을 배울 수 있을까?

1. 문제 정의 (Problem)

2. 방법론 (Methodology: Mind-ParaWorld Framework)

핵심 구성 요소

MPW-Bench (벤치마크)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation