Evaluating the Search Agent in a Parallel World

이 논문은 검색 에이전트 평가의 한계를 해결하기 위해 지식 컷오프 이후의 시나리오와 불변의 사실 기반을 제공하는 'Mind-ParaWorld' 프레임워크와 1,608 개의 사례로 구성된 MPW-Bench 를 제안하며, 이를 통해 에이전트의 정보 수집 능력뿐만 아니라 증거 충분성 판단과 중단 시점 결정에서의 한계를 규명했습니다.

Jiawei Chen, Xintian Shen, Lihao Zheng, Lifu Mu, Haoyi Sun, Ning Mao, Hao Ma, Tao Wei, Pan Zhou, Kun Zhan

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 문제: 왜 기존 시험은 실패했을까?

지금까지 AI 가 웹 검색을 잘하는지 테스트하려면, 실제 인터넷에서 정보를 찾아오게 했습니다. 하지만 이 방식에는 치명적인 세 가지 함정이 있었습니다.

  1. **시험지가 너무 빨리 낡아짐 **(동적 노후화)
    • 비유: 오늘 시험을 치르는데, 내일 뉴스에 "세계 기록이 깨졌다"는 기사가 나면, 어제 만든 정답이 오늘부터는 틀린 답이 됩니다. 인터넷은 살아있는 생물처럼 계속 변하기 때문에, 고정된 시험지는 금방 쓸모없어집니다.
  2. **기억력 vs 검색 능력 구분이 안 됨 **(귀속 모호성)
    • 비유: 학생이 문제를 풀었는데, 정답을 맞췄어요. 그런데 이게 **실제로 도서관 **(검색)을 했기 때문인지, 아니면 **과거에 암기해 둔 지식 **(모델의 기억)을 꺼내서 맞춘 건지 알 수 없습니다.
  3. 시험 비용과 질의 딜레마
    • 비유: 진짜 어려운 문제를 만들려면 전문가가 수고해야 하지만, AI 가 만들어주는 문제는 논리적 구멍이 많거나 신뢰할 수 없는 경우가 많습니다.

🌟 해결책: '마인드 - 파라월드 (Mind-ParaWorld)'

연구팀은 이 문제를 해결하기 위해 **"평행우주 **(Parallel World)라는 가상의 공간을 만들었습니다.

🎭 비유: "미래의 가상의 학교"

상상해 보세요. AI 가 시험을 치르는 곳이 2026 년의 가상의 학교입니다.

  • 실제 인터넷은 없습니다. 대신 AI 가 질문하면, **가상의 검색 엔진 **(ParaWorld Engine)이 답변을 줍니다.
  • 핵심 규칙: 이 가상의 세계에는 **'불변의 법칙 **(Atomic Facts)이 있습니다. 예를 들어, "2027 년 니코 윌리엄스의 득점수는 11 점이다"라는 법칙이 있다면, AI 가 아무리 검색을 해도 그 숫자는 절대 변하지 않습니다.

이 방식의 장점은 무엇일까요?

  1. 기억력 차단: AI 가 훈련할 때 (2024 년 이전) 알 수 없는 미래의 사건을 물어보므로, 반드시 검색을 해야만 답을 찾을 수 있습니다.
  2. 공정한 시험: 검색 엔진이 어떤 결과를 보여줄지 연구팀이 완벽하게 통제하므로, AI 의 실력만 정확히 측정할 수 있습니다.
  3. 논리적 정합성: 가상의 세계는 모순이 없으므로, AI 가 엉뚱한 정보를 찾아오면 바로 틀린 것으로 판명됩니다.

🧩 시험 방식: 3 단계 난이도

연구팀은 AI 의 능력을 세 단계로 나누어 평가했습니다.

  1. **단계 A **(정답 제공)
    • 상황: 모든 필요한 정보 (법칙) 를 AI 에게 다 줍니다. 검색은 금지!
    • 목적: "정보를 다 주면, AI 가 논리적으로 답을 잘 조합할 수 있는가?"를 봅니다. (대부분의 AI 가 잘합니다.)
  2. **단계 B **(가이드 제공)
    • 상황: 검색은 해야 하지만, "어떻게 검색해야 하는지" 힌트를 줍니다. (예: "한 번에 한 명만 검색해라")
    • 목적: "검색을 잘할 수 있는가?"를 봅니다.
  3. **단계 C **(완전 자율)
    • 상황: 아무런 힌트 없이, AI 가 스스로 문제를 분석하고, 검색어를 만들고, 정보를 모으고 답을 내야 합니다.
    • 목적: 진짜 실력을 봅니다.

🔍 연구 결과: AI 의 약점은 무엇일까?

1,600 개 이상의 가상의 문제를 통해 다양한 AI 를 테스트한 결과, 놀라운 사실이 드러났습니다.

  • 정보 조합은 잘함: 정보를 다 주면 (단계 A) AI 는 아주 잘 답을 냅니다.
  • 검색 전략은 약함: 하지만 스스로 정보를 찾아야 하는 단계 C 로 가면 성적이 뚝 떨어집니다.
  • 주요 병목 현상:
    1. 검색을 멈추는 타이밍을 모름: 필요한 정보가 아직 부족할 때, "아, 이제 알겠다!"라고 너무 일찍 결론을 내립니다.
    2. 검색어 구성 실패: 복잡한 질문을 "한 번에 다 찾아줘"라고 요청하다가 실패합니다. (예: "A 와 B 의 점수를 비교해줘"라고 하면 실패하고, "A 점수 찾아줘", "B 점수 찾아줘"로 나누어야 합니다.)
    3. 정보 부족 감지 실패: 검색 결과가 부족해도, "이 정도면 충분해"라고 착각하고 엉뚱한 답을 냅니다.

💡 결론: 무엇을 배울 수 있을까?

이 연구는 "AI 가 검색을 잘하려면, 단순히 검색을 더 많이 하는 게 아니라, '무엇을', '언제', '어떻게' 검색할지 전략을 세우는 능력이 훨씬 중요하다는 것을 보여줍니다.

한 줄 요약:

"지금의 AI 는 **도서관 **(검색)을 잘하지만, **어떤 책을 찾아야 할지 **(전략)를 스스로 기획하는 능력은 아직 부족합니다. 이 '평행우주' 시험은 그 부족함을 정확히 찾아내어, 더 똑똑한 AI 를 만드는 길을 열어줍니다."

이 연구는 Li Auto(리안) 의 기본 모델 팀에서 진행되었으며, 앞으로 더 정교하고 현실적인 AI 검색 에이전트를 개발하는 데 중요한 기준이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →