Each language version is independently generated for its own context, not a direct translation.

🤖 AI 가 "거짓말"을 할 때, 어떻게 알아챌까?

(소음 주입을 통한 환각 탐지 강화)

이 논문은 최근 큰 인기를 끌고 있는 **거대 언어 모델 (LLM, AI)**이 가끔은 매우 그럴듯하지만 **사실과 다른 답변 (환각, Hallucination)**을 내놓는 문제를 해결하기 위한 새로운 방법을 소개합니다.

기존 방법과 이 논문의 새로운 아이디어를 쉽게 이해할 수 있도록 요리사와 실험실에 비유해서 설명해 드릴게요.

1. 문제: AI 는 왜 거짓말을 할까요?

AI 는 마치 천재 요리사처럼 생각해요. 질문을 받으면 그 순간 가장 맛있어 보이는 요리를 만들어냅니다. 하지만 때로는 재료가 부족하거나 기억이 흐릿할 때, 없던 재료를 상상해서 요리를 만들기도 합니다. (예: "사과가 3 개 있는데, 반을 먹으면 1.5 개가 남는다"고 대답하는 건 맞지만, "사과가 100 개 있었는데 반을 먹으면 500 개가 남는다"고 대답하면 큰일 나죠.)

이런 **거짓말 (환각)**을 찾아내는 게 중요합니다.

2. 기존 방법: "한 번 더 물어봐!" (알레토릭 불확실성)

지금까지의 연구자들은 AI 에게 같은 질문을 여러 번 던져봤습니다.

비유: 요리사에게 "사과 3 개 중 반을 먹으면 몇 개 남나요?"라고 10 번 물어봤습니다.
결과: 9 번은 "1.5 개"라고 답하고, 1 번은 "2 개"라고 답했다면? "아, 이 요리사는 1.5 개라고 답하는 게 확실하구나!"라고 판단합니다.
한계: 하지만 요리사가 기억이 나지 않아서 10 번 모두 "1.5 개"라고 똑같이 거짓말을 한다면? 우리는 AI 가 틀렸다는 걸 전혀 모르게 됩니다. AI 가 자신만만하게 거짓말을 할 때는 기존 방법으로 잡아낼 수 없었던 거죠.

3. 이 논문의 해결책: "머리를 살짝 혼란스럽게 만들기" (에피스테믹 불확실성 + 소음 주입)

이 논문은 **"AI 의 기억 (모델 파라미터) 을 살짝 흔들어보자"**는 아이디어를 제시합니다.

🧪 핵심 아이디어: "소음 (Noise) 주입"

AI 의 뇌 (모델) 에 **약간의 소음 (Noise)**을 주입해서, AI 가 매번 조금씩 다른 상태로 생각하게 만듭니다.

비유: 요리사가 요리를 할 때, 안경을 살짝 흐리게 하거나 손을 살짝 떨게 만들어보세요.
- 진실한 요리사 (정답을 아는 경우): 안경이 흐려도 "사과 1.5 개"라는 결론은 변함없이 나옵니다. (안정적)
- 거짓말하는 요리사 (기억이 없는 경우): 안경이 흐려지면 "아, 1 개일 수도? 아니면 2 개일 수도?"라며 답이 자꾸 바뀝니다. (불안정함)

이 논문의 방법은 AI 의 뇌 중간중간 (MLP 레이어) 에 약간의 소음을 섞어서, AI 가 여러 가지 가능한 버전으로 생각하게 만든 뒤, 그 답들이 얼마나 일관적인지 봅니다.

4. 왜 이 방법이 더 좋은가요? (두 가지 불확실성의 만남)

이 논문은 AI 의 불확실성을 두 가지로 나눕니다.

알레토릭 불확실성 (데이터의 불확실성): AI 가 "무작위로" 답을 고를 때 생기는 불확실성. (기존 방법)
에피스테믹 불확실성 (모델의 불확실성): AI 가 자신의 지식 (기억) 이 부족해서 생기는 불확실성. (이 논문의 방법)

🎯 결론:

기존 방법: AI 가 "무작위성" 때문에 답을 바꿀 때만 잡습니다.
새로운 방법: AI 가 "지식 부족" 때문에 답을 바꿀 때까지 잡습니다.
시너지: 두 가지를 합치면 (소음 + 무작위 샘플링), AI 가 거짓말을 할 때 답이 훨씬 더 많이 흔들리는 것을 포착할 수 있게 됩니다. 마치 요리사가 안경을 쓰고도 손이 떨리면, 거짓말을 할 때 그 흔들림이 훨씬 극명하게 드러나는 것과 같습니다.

5. 실험 결과: 정말 효과가 있을까요?

연구자들은 수학적 문제 (GSM8K), 상식 퀴즈 (CSQA), 일반 상식 (TriviaQA) 등 다양한 테스트에서 이 방법을 적용했습니다.

결과: 소음을 주입한 그룹이 거짓말을 훨씬 더 정확하게 찾아냈습니다. (AUROC 점수 향상)
장점:
- 학습 불필요: AI 를 다시 훈련시킬 필요가 없습니다. (Training-free)
- 빠름: 한 번의 실행으로 여러 AI 버전을 동시에 시뮬레이션할 수 있습니다.
- 정확도 유지: 거짓말을 잡아내는 동시에, AI 가 올바른 답을 내는 능력은 떨어지지 않았습니다.

📝 한 줄 요약

"AI 가 거짓말을 할 때, **AI 의 뇌에 약간의 소음 (혼란)**을 주어 그 불안정함을 포착하면, AI 가 자신만만하게 거짓말을 하더라도 쉽게 잡아낼 수 있습니다!"

이 방법은 AI 를 더 안전하게 만들고, 우리가 AI 의 답변을 믿을지 말지 판단하는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 사실과 다른 그럴듯한 답변을 생성하는 '할루시네이션 (Hallucination)' 현상에 취약합니다. 이를 안전하게 배포하기 위해서는 추론 시 할루시네이션을 효과적으로 탐지하는 것이 필수적입니다.

기존의 할루시네이션 탐지 연구는 주로 **알레토릭 불확실성 (Aleatoric Uncertainty, 데이터 불확실성)**에 초점을 맞추었습니다. 이는 모델이 정의한 토큰 분포에서 여러 샘플을 추출하여 답변 간의 일관성 (분산) 을 측정하는 방식입니다.

한계점: 이 방식은 모델이 학습 데이터의 한계로 인해 가질 수 있는 **모델 불확실성 (Epistemic Uncertainty, 인지적 불확실성)**을 충분히 반영하지 못합니다. 즉, 모델이 "모르는" 상태나 학습 데이터에 없는 질문에 대해 모델이 얼마나 불확실한지를 제대로 파악하지 못해 탐지 성능이 제한적입니다.

2. 방법론 (Methodology)

저자들은 할루시네이션 탐지 성능을 극대화하기 위해 알레토릭 불확실성과 인지적 불확실성을 모두 포착하는 새로운 샘플링 기법을 제안합니다.

핵심 아이디어: 노이즈 주입 (Noise Injection)

전통적인 베이지안 접근법 (모델 파라미터 전체의 사후분포 추정) 은 LLM 의 규모로 인해 계산 비용이 너무 커서 비현실적입니다. 저자들은 이를 우회하기 위해 학습이 필요 없는 (Training-free) 간단한 근사 방법을 제안합니다.

대리 분포 (Surrogate Distribution) 구축:
- 사전 학습된 모델 가중치 ( $\bar{\omega}$ ) 를 중심으로 하는 파라미터 분포 $q(\omega)$ 를 정의합니다.
- 전체 파라미터를 무작위로 변경하는 대신, MLP 블록의 편향 (Bias) 항이나 이에 상응하는 **은닉 유닛 활성화 (Hidden Unit Activations)**에 노이즈를 주입하여 모델을 교란시킵니다.
- 이는 수학적으로 모델 파라미터의 무작위 변동을 시뮬레이션하여, 주어진 학습 데이터에 가능한 다양한 모델들을 샘플링하는 것과 동일합니다.
노이즈 주입 방식:
- 위치: 트랜스포머의 상위 레이어 (예: Llama-2 의 20~32 레이어) 의 MLP 활성화 값에 노이즈를 추가합니다.
- 노이즈 종류: SiLU 활성화 함수로 인해 활성화 값이 음수가 되지 않도록 **양수 균등 분포 (Non-negative Uniform Noise, $U(0, \alpha)$ )**를 사용합니다.
- 동시성: 배치 내 각 샘플마다 독립적인 노이즈를 적용하여, 단일 순전파 (Forward Pass) 로 여러 개의 가상 모델을 샘플링하고 병렬로 출력을 생성할 수 있게 합니다.
하이브리드 샘플링 전략:
- 인지적 불확실성 포착: 중간 레이어에 노이즈를 주입하여 모델 구조 자체의 변동을 반영합니다.
- 알레토릭 불확실성 포착: 예측 레이어 (Prediction Layer) 에서 온도 (Temperature) 를 조절하여 토큰 샘플링의 무작위성을 유지합니다.
- 두 가지 불확실성을 결합하여 생성된 $K$ 개의 샘플에 대해 **답변 엔트로피 (Answer Entropy)**를 계산합니다. 할루시네이션일 경우 이 엔트로피가 높아지는 경향을 이용합니다.

3. 주요 기여 (Key Contributions)

새로운 불확실성 프레임워크: 할루시네이션 탐지를 위해 단순한 토큰 샘플링을 넘어, 베이지안 관점의 모델 불확실성 (인지적 불확실성) 을 명시적으로 모델링하는 방법을 제시했습니다.
간단하고 효율적인 알고리즘: 추가적인 학습이나 모델 재학습 없이, 추론 시 활성화 값에 노이즈를 주입하는 것만으로 구현 가능한 경량화된 방법을 제안했습니다.
상호 보완적 효과 입증: 데이터 불확실성 (알레토릭) 만을 다루는 기존 방법과 모델 불확실성 (인지적) 을 다루는 본 방법이 서로 보완적임을 실험적으로 증명했습니다.
광범위한 검증: 다양한 모델 (Llama-2, Llama-3, Mistral, Phi-3 등) 과 다양한 데이터셋 (GSM8K, CSQA, TriviaQA) 에서 일관된 성능 향상을 보였습니다.

4. 실험 결과 (Results)

성능 향상: GSM8K, CSQA, TriviaQA 등 다양한 데이터셋에서 제안된 '노이즈 강화 샘플링 (Noise-Enhanced Sampling)'은 기존 표준 샘플링 방식보다 **AUROC(수신자 조작 특성 곡선 아래 면적)**가 유의미하게 향상되었습니다.
- 예: Llama-2-7B-chat 기준 GSM8K 에서 AUROC 가 71.56 에서 76.14 로 상승.
모델 정확도 유지: 할루시네이션 탐지 성능을 높이는 동시에, 모델의 생성 정확도 (Accuracy) 는 저하되지 않거나 오히려 소폭 향상되는 것을 확인했습니다.
불확실성 지표의 호환성: 답변 엔트로피뿐만 아니라 예측 엔트로피, 어휘적 유사도, 시맨틱 엔트로피, EigenScore 등 다양한 기존 불확실성 측정 지표와 결합했을 때도 일관된 성능 개선을 보였습니다.
레이어 및 파라미터 분석:
- 노이즈를 주입하는 레이어 (상위, 중위, 하위, 전체) 에 상관없이 성능이 개선되었으며, 특히 상위 레이어가 효과적이었습니다.
- 노이즈 크기 ( $\alpha$ ) 와 샘플링 온도 ( $T$ ) 를 조절했을 때, 두 불확실성 원천이 서로 보완적으로 작용하여 최적의 성능을 낸다는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 할루시네이션 탐지 분야에서 중요한 패러다임 전환을 제시합니다.

이론적 통찰: 할루시네이션은 단순히 데이터의 무작위성 (알레토릭) 때문만이 아니라, 모델이 학습 데이터의 한계로 인해 가지는 불확실성 (인지적) 과도 밀접하게 연관되어 있음을 보여줍니다.
실용적 가치: 별도의 학습 비용 없이 추론 단계에서 구현 가능한 단순한 기법 (노이즈 주입) 으로 안전성을 크게 높일 수 있음을 증명했습니다. 이는 LLM 을 의료, 법률 등 고위험 분야에 안전하게 배포하는 데 필수적인 기술적 기반을 제공합니다.
미래 방향: 본 연구는 입력 데이터에 노이즈를 주입하는 기존 방법 (알레토릭 중심) 과 모델 내부에 노이즈를 주입하는 방법 (인지적 중심) 이 상호 보완적임을 보여주어, 향후 하이브리드 불확실성 추정 기법의 발전 방향을 제시합니다.

요약하자면, 이 논문은 **"모델의 내부 상태에 의도적인 노이즈를 주입하여 모델의 인지적 불확실성을 시뮬레이션하고, 이를 기존 데이터 불확실성 측정과 결합함으로써 할루시네이션 탐지 성능을 획기적으로 개선한다"**는 핵심 주장을 담고 있습니다.

Enhancing Hallucination Detection through Noise Injection