DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

이 논문은 정적 벤치마크의 한계를 극복하기 위해 검증자와 전문가가 증거를 바탕으로 벤치마크 라벨을 공동으로 진화시키는 '감사 후 점수 매기기 (AtS)' 방식을 제안하고, 이를 통해 DeepFact-Bench 와 DeepFact-Eval 에이전트를 개발하여 심층 연구 보고서의 사실성 검증 성능을 획기적으로 향상시켰음을 보여줍니다.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

딥팩트 (DeepFact): AI 연구 보고서의 '사실 확인'을 위한 새로운 게임

이 논문은 **"AI 가 쓴 긴 연구 보고서가 정말 사실일까?"**라는 매우 중요한 질문을 던집니다. 그리고 그 답을 찾기 위해 기존의 방식을 완전히 뒤집는 새로운 방법론을 제시합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: AI 가 쓴 '거대한 보고서'와 믿을 수 없는 '정답지'

상황:
최근 AI(대형 언어 모델) 는 마치 박사 과정 학생처럼 방대한 자료를 찾아서 긴 연구 보고서 (Deep Research Reports) 를 작성합니다. 하지만 이 보고서에 적힌 내용이 진짜인지, 헛소리인지 (할루시네이션) 확인하는 것은 매우 어렵습니다.

기존의 문제점 (고정된 정답지):
기존에는 전문가들이 "이건 맞다, 저건 틀리다"라고 정답을 적어둔 **고정된 정답지 (Benchmark)**를 만들어 AI 를 시험시켰습니다.

  • 비유: 마치 수학 시험에서 선생님이 정답을 적어둔 답지를 보고 학생의 답을 채점하는 것과 같습니다.

하지만, 여기서 큰 문제가 생겼습니다.
이 논문의 연구자들은 "전문가들도 정답을 맞히는 게 그렇게 쉽지가 않다"는 것을 발견했습니다.

  • 실험 결과: 박사급 전문가들이 직접 사실을 확인해보니, 정답을 60% 만 맞췄습니다. 나머지 40% 는 전문가도 놓치거나 잘못 판단했습니다.
  • 왜? 연구 주제가 너무 전문적이고, 자료를 찾아서 연결하는 과정이 너무 복잡해서, 인간도 피곤하고 실수를 하기 때문입니다.
  • 결론: "정답지" 자체가 틀렸을 수 있는데, 그걸 기준으로 AI 를 평가하는 것은 의미가 없습니다.

2. 해결책: '살아있는 정답지'와 '감사단' 시스템

연구자들은 이 문제를 해결하기 위해 **"Audit-then-Score (AtS)"**라는 새로운 방식을 제안했습니다. 이를 '살아있는 정답지' 시스템이라고 상상해 보세요.

핵심 아이디어:
정답은 고정된 것이 아니라, **AI 와 전문가가 서로 토론하며 계속 수정해 나가는 '살아있는 합의'**입니다.

작동 원리 (4 단계):

  1. 시험 (Evaluate): AI(도전자) 가 보고서의 내용을 보고 "이건 맞다/틀리다"라고 판단합니다.
  2. 이의 제기 (Challenge): AI 가 기존 정답지 (전문가 판단) 와 다른 결론을 내리면, **"왜 그런지 근거를 대라!"**라고 요구합니다.
    • 비유: 학생이 "선생님, 답지가 틀린 것 같아요. 제가 이 책을 봤는데..."라고 반박하는 상황입니다.
  3. 심사 (Audit): **감사단 (Auditor)**이 등장합니다. 여기서는 인간 전문가나 더 똑똑한 AI 가 심판 역할을 합니다.
    • 학생 (AI) 의 주장이 더 설득력 있고 근거가 확실하면, 기존 정답지를 고칩니다.
    • 학생의 주장이 약하면, 기존 정답지를 유지합니다.
  4. 점수 매기기 (Score): 정답지가 수정된 후, 다시 AI 의 점수를 매깁니다.

이 방식의 놀라운 효과:

  • 전문가의 역할 변화: 전문가가 처음부터 정답을 외우는 '채점자'가 아니라, AI 가 가져온 새로운 증거를 검토하는 **'심사관'**이 됩니다.
  • 결과: 이 과정을 4 번 반복하자, 전문가들의 정확도가 60% 에서 90% 이상으로 급상승했습니다. 전문가 혼자서는 못 봤던 것을 AI 가 찾아내서 전문가가 "아, 맞네!"라고 깨닫게 된 것입니다.

3. 결과물: 딥팩트 (DeepFact)

이론을 실제로 구현한 두 가지 도구가 나왔습니다.

  1. DeepFact-Bench (진화하는 시험지):

    • 단순히 한 번 만들고 끝나는 시험지가 아닙니다. AI 가 더 똑똑해지고 새로운 증거가 나오면, **전문가와 AI 가 함께 정답지를 수정해 나가는 '살아있는 데이터베이스'**입니다.
    • 모든 정답에는 "왜 이렇게 판단했는지"에 대한 근거 (rationale) 가 명확히 적혀 있어, 누구든 다시 검토할 수 있습니다.
  2. DeepFact-Eval (초능력의 사실 확인자):

    • 이 논문의 주인공인 AI 에이전트입니다.
    • 기존 AI: 검색해서 나온 짧은 문장만 보고 "맞다/틀리다"를 판단했습니다. (피상적)
    • DeepFact-Eval: 전체 문서를 읽고, 여러 자료를 교차 검증하며, 전문가처럼 깊이 있게 추론합니다.
    • 성적: 기존 어떤 AI 보다도 정확한 사실 확인 능력을 보여주었습니다.

4. 요약: 왜 이것이 중요한가요?

  • 과거: "인간 전문가가 만든 정답지가 절대 진리다"라고 믿었습니다. (하지만 인간도 실수합니다.)
  • 현재 (DeepFact): "인간과 AI 가 서로의 실수를 찾아내며 함께 진화하는 것이 진짜 진리다"라고 믿습니다.

마치 과학의 발전 과정과 같습니다.
과거의 과학적 결론이 새로운 발견으로 수정되듯, 이 시스템은 AI 의 발전 속도에 맞춰 평가 기준 (정답지) 이도 함께 발전시킵니다.

이 논문은 **"AI 가 전문가 수준으로 성장하는 시대에, 우리는 어떻게 AI 를 믿고 평가할 것인가?"**에 대한 가장 현실적이고 혁신적인 해답을 제시합니다.

한 줄 요약: "인간 전문가 혼자서 모든 걸 다 알 수는 없으니, 똑똑한 AI 가 찾아낸 새로운 증거를 전문가가 함께 검토하며 '진짜 정답'을 계속 업데이트하자!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →