DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

이 논문은 LLM 기반 심층 연구 에이전트가 생성한 전문가 수준의 보고서를 평가하기 위해 전문가가 개발한 7 차원 25 하위 차원의 세분화된 평가 체계와 주장 검증 아키텍처를 포함한 'DEER'라는 새로운 벤치마크를 제안하고, 현재 시스템이 구조적 완성도는 갖췄지만 전문가 요구 충족과 논리적 완결성 측면에서 개선의 여지가 있음을 밝혔습니다.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🦌 DEER: AI 연구 보고서의 '엄격한 심사위원'을 소개합니다

안녕하세요! 최근 AI(인공지능) 가 단순히 답변을 주는 것을 넘어, 전문가 수준의 긴 연구 보고서를 작성하는 시대가 왔습니다. 하지만 문제는 **"이 보고서가 정말 잘 쓰였는지, 어떻게 알 수 있을까?"**입니다.

이 논문은 바로 이 문제를 해결하기 위해 **'DEER(디어)'**라는 새로운 평가 기준을 제안합니다. 'DEER'는 'Deep research Expert Report'의 약자로, 한국어로 번역하면 **'깊은 연구를 위한 전문가 보고서 평가 기준'**이라고 할 수 있습니다.

이 복잡한 논문을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 DEER 가 필요한가요? (기존의 문제점)

과거에는 AI 가 쓴 보고서를 평가할 때 다음과 같은 문제가 있었습니다.

  • 🎯 목표가 불분명: "이 보고서가 좋은가?"라고 물으면, "글이 잘 쓰였나?", "사실이 맞나?", "논리가 통하나?" 등 평가 기준이 너무 모호했습니다. 마치 **"요리 실력을 평가할 때 '맛있으면 10 점, 맛없으면 0 점'이라고만 하는 것"**과 같습니다.
  • 🕵️‍♂️ 전문가의 눈이 부족: AI 가 AI 를 평가하면, 미묘한 전문적인 오류를 놓칠 수 있습니다. 마치 **"요리사에게 요리를 평가하게 했을 때, 소금 간장이 약간 부족해도 모르고 넘어가는 경우"**와 같습니다.
  • 📚 출처 확인의 한계: AI 가 인용한 글만 확인하고, 인용하지 않은 사실은 확인하지 않았습니다. 마치 **"책에서 인용표시된 부분만 확인하고, 나머지 내용은 다 믿는 것"**과 같습니다.

2. DEER 는 어떻게 작동할까요? (해결책)

DEER 는 3 가지 핵심 도구를 사용하여 AI 의 보고서를 꼼꼼히 검사합니다.

① 📋 101 가지의 '세밀한 채점표' (Rubric)

DEER 는 전문가들이 모여 **7 가지 큰 영역 (예: 요청 충족, 논리성, 윤리 등)**과 25 가지 세부 항목, 총 101 개의 구체적인 체크리스트를 만들었습니다.

  • 비유: 요리 평가에서 "맛있다/없다"가 아니라, **"신선한 재료 사용 (10 점), 적절한 소금 간장 (10 점), 깔끔한 플레이팅 (10 점)"**처럼 아주 구체적으로 점수를 매기는 정밀한 채점표를 만든 것입니다.

② 🧑‍🏫 '전문가 가이드'를 준 AI 심사관

AI 가 채점표를 볼 때, 해당 분야의 전문가가 쓴 **'가이드북'**을 함께 줍니다.

  • 비유: 일반인이 요리를 평가할 때, **"이 요리는 '한국식'이어야 하므로 매운맛이 중요해"**라는 전문가의 조언을 듣고 평가하게 하는 것입니다. 이렇게 하면 AI 가 전문적인 오류를 놓치지 않고 정확하게 점수를 매길 수 있습니다.

③ 🔍 '숨은 흔적'까지 찾는 '사실 확인기' (Claim Verification)

AI 가 보고서 전체에서 **사실 주장 (Claim)**을 찾아내고, 인용된 글뿐만 아니라 인용표시가 없는 숨은 사실까지 찾아내어 출처를 확인합니다.

  • 비유: 수사관이 사건을 조사할 때, **범인이 직접 남긴 지문 (인용)**뿐만 아니라, **범인이 발자국을 남긴 흔적 (인용 없는 사실)**까지 추적하여 진실을 확인하는 것과 같습니다.

3. 실험 결과: AI 는 어디가 잘하고, 어디가 부족할까?

DEER 로 여러 최신 AI 모델 (GPT-5, Claude, Gemini 등) 을 시험해 본 결과, 흥미로운 사실이 드러났습니다.

  • ✅ 잘하는 점: 보고서의 형식, 문장 다듬기, 윤리 부분은 거의 완벽에 가깝습니다. 마치 글쓰기 실력은 천재인 상태입니다.
  • ❌ 부족한 점: 하지만 사용자의 복잡한 요구를 정확히 이해하는 능력이나 깊은 논리적 분석에서는 아직 전문가 수준에 미치지 못했습니다.
    • 비유: 글씨체는 아주 예쁘게 잘 쓰지만, 내용 깊이는 아직 대학생 수준인 것입니다.
    • 또한, 너무 많은 자료를 찾아오면 오히려 주제가 흐려지는 경우도 있었습니다.

4. 결론: DEER 가 주는 메시지

이 논문은 단순히 "어떤 AI 가 1 등이다"라고 순위만 매기는 것이 아닙니다.
**"어떤 AI 는 글쓰기는 잘하지만, 논리는 약하고, 어떤 AI 는 자료 찾기는 잘하지만, 윤리 의식은 부족하다"**는 것을 구체적으로 진단해 줍니다.

마치 **의사가 환자에게 "당신은 키는 크지만, 뼈가 약하고, 심장은 튼튼합니다"**라고 정확한 진단을 내려주는 것과 같습니다. 이 진단을 통해 AI 개발자들은 자신의 모델이 어디를 고쳐야 할지 정확히 알 수 있게 됩니다.

🌟 한 줄 요약

"DEER 는 AI 가 쓴 긴 연구 보고서가 '겉치레'만 좋은지, '속 내용'도 진짜 전문가 수준인지, 101 가지의 꼼꼼한 체크리스트와 사실 확인기로 낱낱이 파헤치는 최고의 심사위원입니다."