Enhancing Hallucination Detection through Noise Injection

이 논문은 모델의 베이지안적 불확실성을 반영하기 위해 매개변수나 은닉 단위 활성화에 노이즈를 주입하는 간단하고 훈련이 필요 없는 방법을 제안함으로써, 기존 샘플링 방식보다 할루시네이션 탐지 성능을 크게 향상시킨다고 주장합니다.

Litian Liu, Reza Pourreza, Sunny Panchal, Apratim Bhattacharyya, Yubing Jian, Yao Qin, Roland Memisevic

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 AI 가 "거짓말"을 할 때, 어떻게 알아챌까?

(소음 주입을 통한 환각 탐지 강화)

이 논문은 최근 큰 인기를 끌고 있는 **거대 언어 모델 (LLM, AI)**이 가끔은 매우 그럴듯하지만 **사실과 다른 답변 (환각, Hallucination)**을 내놓는 문제를 해결하기 위한 새로운 방법을 소개합니다.

기존 방법과 이 논문의 새로운 아이디어를 쉽게 이해할 수 있도록 요리사실험실에 비유해서 설명해 드릴게요.


1. 문제: AI 는 왜 거짓말을 할까요?

AI 는 마치 천재 요리사처럼 생각해요. 질문을 받으면 그 순간 가장 맛있어 보이는 요리를 만들어냅니다. 하지만 때로는 재료가 부족하거나 기억이 흐릿할 때, 없던 재료를 상상해서 요리를 만들기도 합니다. (예: "사과가 3 개 있는데, 반을 먹으면 1.5 개가 남는다"고 대답하는 건 맞지만, "사과가 100 개 있었는데 반을 먹으면 500 개가 남는다"고 대답하면 큰일 나죠.)

이런 **거짓말 (환각)**을 찾아내는 게 중요합니다.

2. 기존 방법: "한 번 더 물어봐!" (알레토릭 불확실성)

지금까지의 연구자들은 AI 에게 같은 질문을 여러 번 던져봤습니다.

  • 비유: 요리사에게 "사과 3 개 중 반을 먹으면 몇 개 남나요?"라고 10 번 물어봤습니다.
  • 결과: 9 번은 "1.5 개"라고 답하고, 1 번은 "2 개"라고 답했다면? "아, 이 요리사는 1.5 개라고 답하는 게 확실하구나!"라고 판단합니다.
  • 한계: 하지만 요리사가 기억이 나지 않아서 10 번 모두 "1.5 개"라고 똑같이 거짓말을 한다면? 우리는 AI 가 틀렸다는 걸 전혀 모르게 됩니다. AI 가 자신만만하게 거짓말을 할 때는 기존 방법으로 잡아낼 수 없었던 거죠.

3. 이 논문의 해결책: "머리를 살짝 혼란스럽게 만들기" (에피스테믹 불확실성 + 소음 주입)

이 논문은 **"AI 의 기억 (모델 파라미터) 을 살짝 흔들어보자"**는 아이디어를 제시합니다.

🧪 핵심 아이디어: "소음 (Noise) 주입"

AI 의 뇌 (모델) 에 **약간의 소음 (Noise)**을 주입해서, AI 가 매번 조금씩 다른 상태로 생각하게 만듭니다.

  • 비유: 요리사가 요리를 할 때, 안경을 살짝 흐리게 하거나 손을 살짝 떨게 만들어보세요.
    • 진실한 요리사 (정답을 아는 경우): 안경이 흐려도 "사과 1.5 개"라는 결론은 변함없이 나옵니다. (안정적)
    • 거짓말하는 요리사 (기억이 없는 경우): 안경이 흐려지면 "아, 1 개일 수도? 아니면 2 개일 수도?"라며 답이 자꾸 바뀝니다. (불안정함)

이 논문의 방법은 AI 의 뇌 중간중간 (MLP 레이어) 에 약간의 소음을 섞어서, AI 가 여러 가지 가능한 버전으로 생각하게 만든 뒤, 그 답들이 얼마나 일관적인지 봅니다.

4. 왜 이 방법이 더 좋은가요? (두 가지 불확실성의 만남)

이 논문은 AI 의 불확실성을 두 가지로 나눕니다.

  1. 알레토릭 불확실성 (데이터의 불확실성): AI 가 "무작위로" 답을 고를 때 생기는 불확실성. (기존 방법)
  2. 에피스테믹 불확실성 (모델의 불확실성): AI 가 자신의 지식 (기억) 이 부족해서 생기는 불확실성. (이 논문의 방법)

🎯 결론:

  • 기존 방법: AI 가 "무작위성" 때문에 답을 바꿀 때만 잡습니다.
  • 새로운 방법: AI 가 "지식 부족" 때문에 답을 바꿀 때까지 잡습니다.
  • 시너지: 두 가지를 합치면 (소음 + 무작위 샘플링), AI 가 거짓말을 할 때 답이 훨씬 더 많이 흔들리는 것을 포착할 수 있게 됩니다. 마치 요리사가 안경을 쓰고도 손이 떨리면, 거짓말을 할 때 그 흔들림이 훨씬 극명하게 드러나는 것과 같습니다.

5. 실험 결과: 정말 효과가 있을까요?

연구자들은 수학적 문제 (GSM8K), 상식 퀴즈 (CSQA), 일반 상식 (TriviaQA) 등 다양한 테스트에서 이 방법을 적용했습니다.

  • 결과: 소음을 주입한 그룹이 거짓말을 훨씬 더 정확하게 찾아냈습니다. (AUROC 점수 향상)
  • 장점:
    • 학습 불필요: AI 를 다시 훈련시킬 필요가 없습니다. (Training-free)
    • 빠름: 한 번의 실행으로 여러 AI 버전을 동시에 시뮬레이션할 수 있습니다.
    • 정확도 유지: 거짓말을 잡아내는 동시에, AI 가 올바른 답을 내는 능력은 떨어지지 않았습니다.

📝 한 줄 요약

"AI 가 거짓말을 할 때, **AI 의 뇌에 약간의 소음 (혼란)**을 주어 그 불안정함을 포착하면, AI 가 자신만만하게 거짓말을 하더라도 쉽게 잡아낼 수 있습니다!"

이 방법은 AI 를 더 안전하게 만들고, 우리가 AI 의 답변을 믿을지 말지 판단하는 데 큰 도움이 될 것입니다.