Each language version is independently generated for its own context, not a direct translation.

🕵️‍♀️ 베리트레일 (VeriTrail): AI 의 '거짓말'을 찾아내는 탐정 이야기

안녕하세요! 오늘 소개할 논문은 **"AI 가 사실을 바탕으로 글을 쓸 때, 엉뚱한 거짓말 (환각) 을 하지 않았는지 어떻게 확인하고, 그 거짓말이 어디서 시작되었는지 추적할 수 있을까?"**라는 질문에 답하는 내용입니다.

이 논문은 Microsoft Research의 연구자들이 작성한 것으로, **'베리트레일 (VeriTrail)'**이라는 새로운 시스템을 소개합니다.

🍕 1. 문제 상황: "피자 배달이 왜 이리 늦지?"

우리가 AI(대형 언어 모델) 에게 "이 책 내용을 요약해 줘"라고 요청하면, AI 는 보통 한 번에 답을 줍니다. 하지만 요즘은 더 복잡한 일을 시킬 때가 많습니다.

단일 단계 (SGS): "이 책 한 장을 요약해 줘." (한 번에 끝남)
다중 단계 (MGS): "이 책 100 장을 읽어서, 각 장을 요약하고, 그 요약들을 다시 묶어서 전체 줄거리를 만들어줘." (여러 단계 거쳐서 끝남)

여기서 문제가 생깁니다.
AI 가 복잡한 작업을 할 때, 중간에 실수를 하거나 엉뚱한 정보를 섞어 넣을 수 있습니다. 마치 피자를 만들 때요리사가 1 단계에서 토마토를 잘못 자르고, 2 단계에서 치즈를 잘못 뿌리고, 3 단계에서 오븐을 잘못 설정했다고 가정해 보세요.

기존의 방법들은 **"최종 결과물 (완성된 피자)"**만 보고 "이거 맛있어?" 혹은 "이거 이상하네?"라고만 판단했습니다. 하지만 어디서부터 문제가 시작되었는지는 알 수 없었습니다.

핵심 문제: "피자가 맛이 없다"는 건 알 수 있어도, "도우가 불었는지, 소스가 탔는지, 치즈가 덜 익었는지"를 모르면 고칠 수 없습니다.

🕵️‍♂️ 2. 해결책: 베리트레일 (VeriTrail)

이 논문은 베리트레일이라는 시스템을 제안합니다. 이름 그대로 **'진실의 흔적 (Veri = Veracity, Trail = 흔적)'**을 따라가는 탐정입니다.

🧩 베리트레일의 작동 원리 (비유)

베리트레일은 AI 가 만든 **작업 과정 전체를 '지도 (DAG)'**로 그립니다. 그리고 AI 가 쓴 문장 하나하나를 진실 탐정이 조사합니다.

진술 분리 (Claim Decomposition):
- AI 가 쓴 문장: "A 는 B 를 사서 C 를 만들었다."
- 탐정은 이를 쪼개서 봅니다. "A 가 B 를 샀다"는 사실, "B 로 C 를 만들었다"는 사실. 하나하나 따져봅니다.
증거 추적 (Evidence Selection):
- "A 가 B 를 샀다"는 말이 맞다면, **원본 문서 (소스)**에서 그 증거를 찾아야 합니다.
- 만약 AI 가 중간 요약 단계에서 "A 가 B 를 샀다"고 잘못 썼다면, 베리트레일은 그 중간 요약 단계로 거슬러 올라가서 "아, 여기서 실수가 시작됐구나!"라고 찾아냅니다.
반복 조사 (Iterative Tracing):
- 만약 중간 요약이 틀렸다면, 그 요약의 원료가 된 '원문'을 다시 확인합니다.
- 이 과정을 거꾸로 거슬러 올라가며 (최종 결과 → 중간 요약 → 원문) 실수가 어디서 발생했는지 pinpoint 합니다.
결과 발표:
- 진실 (Fully Supported): 원문에서 증거를 찾았으니 OK!
- 거짓 (Not Fully Supported): 증거가 없거나 모순됨.
- 추적 완료: "이 거짓말은 3 단계 요약 과정에서 시작되었습니다!"라고 알려줍니다.

📊 3. 실험 결과: 왜 베리트레일이 더 좋은가?

연구자들은 FABLES+(책 요약 데이터)와 DiverseSumm+(뉴스 기사 요약 데이터)라는 새로운 데이터셋을 만들었습니다. 이 데이터셋의 특징은 AI 가 만든 모든 중간 단계의 결과물까지 모두 포함하고 있다는 점입니다. (기존 데이터셋은 최종 결과만 있었음)

결과:

정확도: 베리트레일이 다른 기존 방법들보다 거짓말을 찾아내는 데 훨씬 뛰어났습니다.
비용: 복잡한 과정을 거치지만, 효율적인 알고리즘 덕분에 비용도 합리적입니다.
가장 큰 장점: 단순히 "거짓말이다"라고 말하는 것을 넘어, "어디서, 어떻게 거짓말이 생겼는지" 알려줍니다.

예시:

기존 방법: "이 요약은 사실이 아닙니다." (그만)

베리트레일: "이 요약은 사실이 아닙니다. 특히 3 단계에서 '회사 X 가 2020 년에 스타트업을 2 개 인수했다'고 잘못 썼는데, 원문을 보니 1 개만 인수했습니다. 2 단계 요약에서 이미 숫자가 틀려진 것 같습니다."

💡 4. 왜 이것이 중요한가요? (일상적인 비유)

이 기술이 왜 필요한지 병원과 법률 상황을 상상해 보세요.

의사: "AI 가 의료 문서를 바탕으로 환자에게 치료법을 제안했는데, 잘못된 약을 추천했다."
- 기존: "AI 가 틀렸네요." (왜 틀렸는지 모름)
- 베리트레일: "AI 가 2 단계에서 문서를 잘못 해석해서 잘못된 약을 추천했습니다. 원문에는 다른 약이 나와 있었습니다." (의사는 바로 수정 가능)
변호사: "AI 가 판례를 요약했는데, 중요한 판결 근거를 빼먹었습니다."
- 베리트레일: "어떤 중간 요약 단계에서 그 근거가 사라졌습니다." (변호사는 그 부분을 다시 확인하여 시간을 아낄 수 있음)

🏁 결론: 투명하고 신뢰할 수 있는 AI

베리트레일은 AI 가 글을 쓸 때, **마치 "검은 상자"가 아니라 "유리 상자"**처럼 만들어주는 기술입니다.

신뢰성: AI 가 뭘 근거로 그 말을 했는지 보여줍니다.
책임 소재: 실수가 어디서 시작되었는지 정확히 짚어줍니다.
미래: 복잡한 작업을 하는 AI 시스템이 일상화될수록, 이 '흔적 추적' 기능은 필수적이 될 것입니다.

이 논문은 **"AI 가 거짓말을 하지 않게 하라"는 것을 넘어, "거짓말을 했을 때 그 흔적을 찾아내어 고칠 수 있게 하라"**는 새로운 기준을 제시합니다. 마치 훌륭한 탐정이 사건 현장을 꼼꼼히 조사하여 진실을 밝히는 것과 같습니다! 🕵️‍♀️✨

Each language version is independently generated for its own context, not a direct translation.

VeriTrail: 폐쇄 도메인 환각 감지를 위한 추적 가능성 (Traceability) 기술 요약

이 논문은 언어 모델 (LM) 이 소스 자료를 기반으로 콘텐츠를 생성할 때 발생하는 '폐쇄 도메인 환각 (Closed-domain Hallucination)' 문제를 해결하기 위해 제안된 새로운 방법론 VeriTrail을 소개합니다. 특히 단일 생성 단계 (SGS) 가 아닌 **여러 생성 단계 (MGS)**를 거치는 복잡한 프로세스에서 환각의 원인을 추적하고, 생성된 콘텐츠의 신뢰성을 입증하는 데 중점을 둡니다.

1. 문제 정의 (Problem)

폐쇄 도메인 환각: LM 이 소스 자료를 준수하도록 지시받았음에도 불구하고 근거 없는 내용을 생성하는 현상입니다. 이는 의료, 법률, 고객 서비스 등 사실에 기반한 정보가 필수적인 분야에서 심각한 위험을 초래합니다.
MGS 프로세스의 복잡성: 최근 LM 응용 프로그램은 긴 문서나 대량의 문서 집합을 처리하기 위해 여러 단계 (예: 계층적 요약, GraphRAG) 를 거치는 MGS 방식을 increasingly 사용합니다.
기존 방법의 한계:
- 기존 환각 감지 방법은 최종 출력물만 소스 자료와 비교하여 '신뢰할 수 있음/없음'을 판단합니다.
- MGS 환경에서는 중간 출력물 (Intermediate Outputs) 을 거치며 오류가 발생하고 전파될 수 있어, 최종 결과만으로는 어디서 (Error Localization) 그리고 어떻게 (Provenance) 오류가 발생했는지 추적할 수 없습니다.
- 단순히 각 중간 출력물을 개별적으로 확인하는 것은 비용이 너무 많이 들고, 여러 중간 결과가 결합되어 최종 결론이 도출되는 경우를 처리하지 못합니다.

2. 방법론: VeriTrail (Methodology)

VeriTrail 은 MGS 및 SGS 프로세스 모두에 적용 가능한 최초의 추적 가능 환각 감지 방법입니다.

2.1 개념적 프레임워크

생성 과정을 DAG(유방향 비순환 그래프) 로 모델링:
- 노드 (Node): 소스 문서에서 나온 텍스트 조각 (Root Node) 또는 생성 단계에서 생성된 텍스트 (Intermediate/Terminal Node).
- 간선 (Edge): 입력과 출력 간의 관계 (어떤 노드가 다음 노드 생성에 사용되었는지).
- 단계 (Stage): 생성 프로세스 내 노드의 위치를 나타냅니다.
신뢰성 평가 (Faithfulness Evaluation): 최종 출력 (Terminal Node) 을 구성하는 사실적 주장 (Claims) 을 분해하고, 소스 자료 (Root Nodes) 를 통해 각 주장이 지지되는지 확인합니다.

2.2 VeriTrail 의 핵심 작동 원리

주장 분해 (Sub-claim Decomposition): 복잡한 주장을 검증 가능한 작은 하위 주장 (Sub-claims) 으로 분해합니다.
증거 선택 (Evidence Selection):
- 현재 노드의 입력이 된 소스 노드들에서 해당 주장 (또는 하위 주장) 을 강력하게 지지하거나 반박하는 문장을 선택합니다.
- LLM 을 사용하여 문장 단위로 증거를 선별하며, 문맥을 잃지 않도록 주의합니다.
판단 생성 (Verdict Generation): 선택된 증거를 바탕으로 "완전 지지 (Fully Supported)", "완전 지지 불가 (Not Fully Supported)", "결정 불가 (Inconclusive)" 중 하나를 판단합니다.
후방 추적 및 반복 (Backward Traversal & Iteration):
- 지지된 경우: 해당 노드의 소스 노드들 중 증거가 발견된 노드들의 소스 노드로만 탐색 범위를 좁힙니다.
- 지지 불가인 경우: 모든 검증된 노드의 소스 노드를 포함하여 탐색 범위를 유지하거나 확장하여 누락된 증거를 찾습니다.
- 종료 조건: 루트 노드 (원본 소스) 에 도달하거나, 연속적으로 '지지 불가' 판정이 $q$ 번 발생하면 프로세스를 종료합니다.

2.3 추적 가능성 (Traceability) 제공

출처 증명 (Provenance): "완전 지지"된 주장에 대해 소스 자료에서 최종 출력까지의 증거 경로를 문서화합니다.
오류 국소화 (Error Localization): "지지 불가"로 판정된 경우, 환각이 발생했을 가능성이 가장 높은 **단계 (Stage)**를 식별합니다. (예: GraphRAG 의 4 단계에서 오류 발생)

3. 주요 기여 (Key Contributions)

VeriTrail 제안: 폐쇄 도메인 환각 감지뿐만 아니라 MGS 및 SGS 프로세스의 추적 가능성을 제공하는 최초의 방법론입니다.
새로운 데이터셋 구축:
- FABLES+: 책 요약 (계층적 요약) 프로세스의 모든 중간 출력물과 인간이 annotat 한 최종 출력 신뢰성 데이터.
- DiverseSumm+: 뉴스 기사 기반 GraphRAG 프로세스의 모든 중간 출력물과 인간이 annotat 한 데이터.
- 기존 데이터셋과 달리 모든 중간 생성 단계의 출력물을 포함하여 MGS 평가에 필수적인 인프라를 제공합니다.
성능 입증: 두 데이터셋 모두에서 기존 베이스라인 (NLI 기반 방법, RAG, 직접 검증 등) 을 능가하는 성능을 보였습니다.

4. 실험 결과 (Results)

데이터셋: FABLES+ (22 권의 책, 약 118K 토큰) 과 DiverseSumm+ (1,479 개 기사, 약 1.19M 토큰).
비교 대상: INFUSE, AlignScore, Llama-3.1-Bespoke-MiniCheck-7B, RAG, Gemini 1.5 Pro, GPT-4.1 Mini 등.
주요 성과:
- 정확도: VeriTrail 은 두 데이터셋에서 모든 베이스라인 방법보다 Macro F1과 균형 정확도 (Balanced Accuracy) 측면에서 우수한 성능을 기록했습니다. (예: FABLES+ 에서 VeriTrail $q=1$ 기준 Macro F1 74.0% vs 차선책 RAG 69.6%)
- 비용 효율성: VeriTrail 은 더 많은 검증을 수행하지만, 선택적 검증 (Selective Verification) 과 조기 종료 (Early Termination) 메커니즘으로 인해 인간 주석 비용보다 낮고, 많은 베이스라인 방법과 유사하거나 더 낮은 비용으로 높은 성능을 달성했습니다.
- 오류 분석: VeriTrail 은 환각이 발생한 구체적인 단계 (예: GraphRAG 의 4 단계) 를 성공적으로 식별하여 사용자에게 실행 가능한 인사이트를 제공했습니다.

5. 의의 및 결론 (Significance)

투명성과 신뢰성: 복잡한 MGS 프로세스에서 LM 이 생성한 콘텐츠가 소스 자료에서 어떻게 유도되었는지에 대한 **투명한 증거 경로 (Evidence Trail)**를 제공합니다.
실용적 가치: 의료, 법률 등 오류가 치명적인 분야에서 LM 의 환각을 단순히 감지하는 것을 넘어, 어디서 오류가 발생했는지 파악하여 수정 및 신뢰성 향상에 기여합니다.
미래 연구 방향: 생성 과정의 구조를 DAG 로 모델링하고, 중간 출력을 활용한 검증 프레임워크를 제시함으로써, 향후 대규모 언어 모델의 신뢰성 평가 및 디버깅을 위한 새로운 표준을 제시합니다.

요약하자면, VeriTrail은 단순히 "거짓말을 했는가?"를 묻는 것을 넘어, "어디서, 어떻게 거짓말이 시작되었는가?"를 추적할 수 있게 함으로써, 복잡한 생성형 AI 시스템의 신뢰성을 확보하는 획기적인 접근법입니다.

VeriTrail: Closed-Domain Hallucination Detection with Traceability