DRBench: A Realistic Benchmark for Enterprise Deep Research

이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji

게시일 Wed, 11 Ma
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'DRBench'**라는 새로운 도구를 소개합니다. 이 도구의 역할을 쉽게 이해하려면 **'초고난도 미스터리 탐정 훈련 시나리오'**라고 상상해 보세요.

기존의 인공지능 (AI) 테스트들은 보통 "오늘 날씨는 어때?", "파스타 레시피 알려줘"처럼 단순한 질문에 답하는 능력을 확인하는 수준이었습니다. 마치 초등학생에게 "사과가 몇 개야?"라고 묻는 것과 비슷하죠.

하지만 DRBench는 훨씬 더 복잡하고 현실적인 상황을 가정합니다.

🕵️‍♂️ 비유: "초호화 저택의 비밀을 찾아라"

이제 AI 를 초호화 저택 (기업) 에 고용된 최고의 탐정이라고 생각해 보세요.

  1. 단순한 질문이 아닌, 복잡한 미션:

    • 기존 테스트: "저택 문이 무슨 색이야?" (정답은 한눈에 보입니다.)
    • DRBench 미션: "우리의 제품 계획을 수정해서 새로운 안전 규정을 준수하려면, 어떤 변화를 해야 할까?"
    • 이 미션을 해결하려면 탐정은 단순히 문만 보는 게 아니라, **저택 안의 모든 비밀 문서 (사내 이메일, 채팅 기록, 클라우드 파일)**와 **세상 밖의 뉴스 (공개된 웹)**를 모두 뒤져야 합니다.
  2. 두 가지 세계의 정보 통합:

    • 이 탐정은 **사내 금고 (비밀 데이터)**와 도서관 (공개 인터넷) 두 곳을 동시에 오가야 합니다.
    • 예를 들어, "이 규정이 우리 회사의 과거 이메일 대화에서 어떤 영향을 미쳤는지 찾아내고, 동시에 최신 뉴스에서 다른 회사들이 어떻게 대응했는지 비교해라"는 식의 미션입니다.
  3. 실제 상황을 그대로 재현:

    • 이 테스트는 가상의 상황만 만드는 게 아니라, 실제 기업에서 일하는 **사람들의 역할 (세일즈, 보안 전문가 등)**을 맡게 합니다.
    • 마치 실제 업무 환경에서 "우리 팀의 다음 달 전략을 짜줘"라고 지시받은 것과 똑같은 압박감과 복잡함을 줍니다.
  4. 정확한 보고서 작성:

    • 탐정 (AI) 은 단순히 정보를 찾아오는 것만으로는 부족합니다. 찾아낸 조각난 정보들을 논리적으로 연결해서, 상사에게 제출할 수 있는 완벽한 보고서를 써야 합니다.
    • 여기서 중요한 건 '사실 관계'가 틀리지 않아야 한다는 점입니다.

🏆 왜 이 논문이 중요할까요?

연구진들은 이 '미스터리 훈련 시나리오'를 통해 다양한 AI 모델 (GPT, Llama, Qwen 등) 을 시험해 보았습니다. 결과는 어떨까요?

  • 많은 AI 들이 정보는 잘 찾아내지만, 그 정보를 실제 업무에 적용할 수 있는 결론으로 만드는 데는 여전히 어려움을 겪고 있었습니다.
  • 마치 방대한 도서관에서 책을 다 읽었지만, 그 내용을 요약해서 보고서로 제출하는 데는 실패하는 것과 비슷합니다.

💡 결론

DRBench는 AI 가 "단순한 검색 엔진"을 넘어, **기업의 복잡한 문제를 스스로 분석하고 해결책을 제시하는 '진짜 비서'**가 될 수 있는지 테스트하는 최고 수준의 시험지입니다.

이론적으로만 잘하는 AI 가 아니라, 실제 기업 현장에서 일할 수 있는 AI 를 만들기 위해 이 '미스터리 훈련'이 필수적이라는 것을 보여주고 있습니다.