HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

이 논문은 대규모 언어 모델의 환각 현상을 스패너 단위로 국소화하고, 그 발생 메커니즘을 규명하며, 외부 증거를 추적하는 정교한 프레임워크인 'HART'를 제안하고 이를 검증하기 위한 구조화된 데이터셋을 구축하여 기존 방법론보다 우수한 성능을 입증했습니다.

Shize Liang, Hongzhi Wang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ HART: AI 의 거짓말을 추적하는 '디지털 탐정'

우리가 AI 에게 질문하면, AI 는 아주 그럴듯하게 답변을 해줍니다. 하지만 가끔은 **사실이 아닌 거짓말 **(환각, Hallucination)을 지어내기도 합니다. 예를 들어, "에인슈타인이 1921 년 노벨상을 이 이론으로 받았고, 프랭클린 루즈벨트와 함께 원자폭탄을 설계했다"라고 말한다면,前半部分은 맞지만后半部分은 완전히 틀린 거짓말이죠.

기존의 연구들은 "이 답변이 틀렸어!"라고만 지적하거나, **"AI 내부에서 어떤 신호가 잘못됐는지"**만 분석했습니다. 하지만 사용자는 "어디가 틀렸고, 왜 틀렸으며, 정답은 무엇인지"를 알고 싶어 합니다.

이때 등장한 HART는 단순히 "틀렸다"고 말하는 것을 넘어, 거짓말의 원인을 찾아내고, 정답이 되는 증거를 가져오는 탐정 역할을 합니다.

🧩 HART 가 어떻게 작동할까요? (4 단계 수사 과정)

HART 는 AI 가 쓴 답변을 4 단계로 나누어 꼼꼼히 조사합니다.

1. 🎯 범인 찾기 (스팬 국소화)

AI 가 쓴 긴 글 속에서 정확히 어떤 문장이나 단어가 거짓말인지 찾아냅니다.

비유: 수사관이 긴 보고서에서 "여기, 이 문장이 의심스러워!"라고 형광펜으로 표시하는 작업입니다.

2. 🧠 범인의 동기와 수법 분석 (메커니즘 귀속)

그 거짓말이 왜 나왔을까요? HART 는 그 원인을 5 가지 유형으로 분류합니다.

  • 사실 왜곡: 사실을 잘못 기억한 경우.
  • 과도한 일반화: 일부 사실만 보고 전체를 단정지은 경우.
  • 논리 실패: 앞뒤가 안 맞는 경우.
  • 문맥 누출: 다른 대화 내용을 섞어버린 경우.
  • **창작 **(가짜) 아예 없는 사실을 지어낸 경우.

    비유: 범인이 "실수였어", "오해였어", "아예 거짓말을 지었어" 등 범행 동기를 분류하는 것과 같습니다.

3. 📚 정답이 되는 증거 찾기 (증거 검색)

거짓말을 반박할 진실된 증거를 외부 데이터베이스 (위키백과 등) 에서 찾아옵니다.

비유: AI 가 "서울이 한국 수도야"라고 거짓말을 했다면, HART 는 "아니야, 서울은 수도가 맞지만... (예: 다른 나라의 수도를 혼동한 경우)"를 증명할 수 있는 정확한 뉴스 기사나 백과사전을 찾아옵니다.

4. 🔗 연결고리 완성 (인과 추적)

찾아낸 거짓말, 그 이유, 그리고 정답이 되는 증거를 하나로 연결하여 사용자에게 보여줍니다.

비유: "이 문장은 (거짓말) 이고, 이유는 (창작) 이며, 정답은 (이 문서) 에 있습니다"라고 수사 보고서를 작성해 주는 것입니다.

🛠️ HART 가 만든 특별한 도구: '거짓말 데이터셋'

이 연구의 가장 큰 성과는 AI 의 거짓말을 분석하기 위해 직접 만든 데이터입니다.
기존에는 AI 가 틀린 말을 했는지 여부만 확인했지만, HART 는 어떤 문장이 틀렸는지, 왜 틀렸는지, 어떤 증거가 정답인지까지 세세하게标注 (라벨링) 한 데이터를 만들었습니다. 마치 범행 현장의 모든 단서를 꼼꼼히 기록한 수사 파일과 같습니다.

📊 결과는 어떨까요?

실험 결과, HART 는 기존에 있던 검색 기술 (BM25, DPR 등) 보다 훨씬 뛰어난 성능을 보였습니다.

  • 정확도: AI 가 거짓말을 했을 때, 그 정답이 되는 증거를 **가장 먼저 **(상위 1 위) 찾아낼 확률이 기존 방법보다 훨씬 높았습니다.
  • 해석 가능성: 단순히 "틀렸다"고만 하는 게 아니라, 왜 틀렸는지를 설명해 주기 때문에 사용자가 AI 의 답변을 더 신뢰하고 검증할 수 있게 되었습니다.

💡 요약: 왜 이 연구가 중요할까요?

지금까지 AI 는 "거짓말을 하면 안 돼"라는 말만 들었습니다. 하지만 HART는 AI 가 거짓말을 했을 때, **"어디가, 왜, 어떻게 틀렸고, 정답은 무엇인지"**를 명확하게 알려줍니다.

이는 의료, 법률, 금융처럼 실수가 치명적인 분야에서 AI 를 사용할 때, 우리가 AI 를 맹신하지 않고 증거를 바탕으로 검증할 수 있게 해주는 핵심 기술입니다.

한 줄 요약:

HART 는 AI 가 지어낸 거짓말을 찾아내고, 그 이유를 분석하며, 정답이 되는 진짜 증거를 가져와 주는 '디지털 탐정'입니다.