VeriTrail: Closed-Domain Hallucination Detection with Traceability

이 논문은 단일 생성 단계와 다중 생성 단계 프로세스 모두에서 소스 자료의 신뢰성을 추적하고 환각을 탐지하기 위해 설계된 최초의 방법인 'VeriTrail'과 관련 데이터셋을 제안하며, 기존 베이스라인 방법보다 우수한 성능을 입증합니다.

Dasha Metropolitansky, Jonathan Larson

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♀️ 베리트레일 (VeriTrail): AI 의 '거짓말'을 찾아내는 탐정 이야기

안녕하세요! 오늘 소개할 논문은 **"AI 가 사실을 바탕으로 글을 쓸 때, 엉뚱한 거짓말 (환각) 을 하지 않았는지 어떻게 확인하고, 그 거짓말이 어디서 시작되었는지 추적할 수 있을까?"**라는 질문에 답하는 내용입니다.

이 논문은 Microsoft Research의 연구자들이 작성한 것으로, **'베리트레일 (VeriTrail)'**이라는 새로운 시스템을 소개합니다.


🍕 1. 문제 상황: "피자 배달이 왜 이리 늦지?"

우리가 AI(대형 언어 모델) 에게 "이 책 내용을 요약해 줘"라고 요청하면, AI 는 보통 한 번에 답을 줍니다. 하지만 요즘은 더 복잡한 일을 시킬 때가 많습니다.

  • 단일 단계 (SGS): "이 책 한 장을 요약해 줘." (한 번에 끝남)
  • 다중 단계 (MGS): "이 책 100 장을 읽어서, 각 장을 요약하고, 그 요약들을 다시 묶어서 전체 줄거리를 만들어줘." (여러 단계 거쳐서 끝남)

여기서 문제가 생깁니다.
AI 가 복잡한 작업을 할 때, 중간에 실수를 하거나 엉뚱한 정보를 섞어 넣을 수 있습니다. 마치 피자를 만들 때요리사가 1 단계에서 토마토를 잘못 자르고, 2 단계에서 치즈를 잘못 뿌리고, 3 단계에서 오븐을 잘못 설정했다고 가정해 보세요.

기존의 방법들은 **"최종 결과물 (완성된 피자)"**만 보고 "이거 맛있어?" 혹은 "이거 이상하네?"라고만 판단했습니다. 하지만 어디서부터 문제가 시작되었는지는 알 수 없었습니다.

핵심 문제: "피자가 맛이 없다"는 건 알 수 있어도, "도우가 불었는지, 소스가 탔는지, 치즈가 덜 익었는지"를 모르면 고칠 수 없습니다.


🕵️‍♂️ 2. 해결책: 베리트레일 (VeriTrail)

이 논문은 베리트레일이라는 시스템을 제안합니다. 이름 그대로 **'진실의 흔적 (Veri = Veracity, Trail = 흔적)'**을 따라가는 탐정입니다.

🧩 베리트레일의 작동 원리 (비유)

베리트레일은 AI 가 만든 **작업 과정 전체를 '지도 (DAG)'**로 그립니다. 그리고 AI 가 쓴 문장 하나하나를 진실 탐정이 조사합니다.

  1. 진술 분리 (Claim Decomposition):

    • AI 가 쓴 문장: "A 는 B 를 사서 C 를 만들었다."
    • 탐정은 이를 쪼개서 봅니다. "A 가 B 를 샀다"는 사실, "B 로 C 를 만들었다"는 사실. 하나하나 따져봅니다.
  2. 증거 추적 (Evidence Selection):

    • "A 가 B 를 샀다"는 말이 맞다면, **원본 문서 (소스)**에서 그 증거를 찾아야 합니다.
    • 만약 AI 가 중간 요약 단계에서 "A 가 B 를 샀다"고 잘못 썼다면, 베리트레일은 그 중간 요약 단계로 거슬러 올라가서 "아, 여기서 실수가 시작됐구나!"라고 찾아냅니다.
  3. 반복 조사 (Iterative Tracing):

    • 만약 중간 요약이 틀렸다면, 그 요약의 원료가 된 '원문'을 다시 확인합니다.
    • 이 과정을 거꾸로 거슬러 올라가며 (최종 결과 → 중간 요약 → 원문) 실수가 어디서 발생했는지 pinpoint 합니다.
  4. 결과 발표:

    • 진실 (Fully Supported): 원문에서 증거를 찾았으니 OK!
    • 거짓 (Not Fully Supported): 증거가 없거나 모순됨.
    • 추적 완료: "이 거짓말은 3 단계 요약 과정에서 시작되었습니다!"라고 알려줍니다.

📊 3. 실험 결과: 왜 베리트레일이 더 좋은가?

연구자들은 FABLES+(책 요약 데이터)와 DiverseSumm+(뉴스 기사 요약 데이터)라는 새로운 데이터셋을 만들었습니다. 이 데이터셋의 특징은 AI 가 만든 모든 중간 단계의 결과물까지 모두 포함하고 있다는 점입니다. (기존 데이터셋은 최종 결과만 있었음)

결과:

  • 정확도: 베리트레일이 다른 기존 방법들보다 거짓말을 찾아내는 데 훨씬 뛰어났습니다.
  • 비용: 복잡한 과정을 거치지만, 효율적인 알고리즘 덕분에 비용도 합리적입니다.
  • 가장 큰 장점: 단순히 "거짓말이다"라고 말하는 것을 넘어, "어디서, 어떻게 거짓말이 생겼는지" 알려줍니다.

예시:

  • 기존 방법: "이 요약은 사실이 아닙니다." (그만)
  • 베리트레일: "이 요약은 사실이 아닙니다. 특히 3 단계에서 '회사 X 가 2020 년에 스타트업을 2 개 인수했다'고 잘못 썼는데, 원문을 보니 1 개만 인수했습니다. 2 단계 요약에서 이미 숫자가 틀려진 것 같습니다."

💡 4. 왜 이것이 중요한가요? (일상적인 비유)

이 기술이 왜 필요한지 병원법률 상황을 상상해 보세요.

  • 의사: "AI 가 의료 문서를 바탕으로 환자에게 치료법을 제안했는데, 잘못된 약을 추천했다."

    • 기존: "AI 가 틀렸네요." (왜 틀렸는지 모름)
    • 베리트레일: "AI 가 2 단계에서 문서를 잘못 해석해서 잘못된 약을 추천했습니다. 원문에는 다른 약이 나와 있었습니다." (의사는 바로 수정 가능)
  • 변호사: "AI 가 판례를 요약했는데, 중요한 판결 근거를 빼먹었습니다."

    • 베리트레일: "어떤 중간 요약 단계에서 그 근거가 사라졌습니다." (변호사는 그 부분을 다시 확인하여 시간을 아낄 수 있음)

🏁 결론: 투명하고 신뢰할 수 있는 AI

베리트레일은 AI 가 글을 쓸 때, **마치 "검은 상자"가 아니라 "유리 상자"**처럼 만들어주는 기술입니다.

  • 신뢰성: AI 가 뭘 근거로 그 말을 했는지 보여줍니다.
  • 책임 소재: 실수가 어디서 시작되었는지 정확히 짚어줍니다.
  • 미래: 복잡한 작업을 하는 AI 시스템이 일상화될수록, 이 '흔적 추적' 기능은 필수적이 될 것입니다.

이 논문은 **"AI 가 거짓말을 하지 않게 하라"는 것을 넘어, "거짓말을 했을 때 그 흔적을 찾아내어 고칠 수 있게 하라"**는 새로운 기준을 제시합니다. 마치 훌륭한 탐정이 사건 현장을 꼼꼼히 조사하여 진실을 밝히는 것과 같습니다! 🕵️‍♀️✨