매우 똑똑하고 자신감 넘치는 로봇이 질문에 답한다고 상상해 보세요. 때때로 이 로봇은 지어낸 이야기를 합니다. 우리는 이러한 실수를 "환각(hallucinations)"이라고 부릅니다.

오랫동안 연구자들은 이 실수들을 무엇이 잘못되었는지(예: "사실 관계를 틀렸다" 또는 "추론이 부족했다")에 따라 분류하려고 노력했습니다. 하지만 이 논문의 저자인 모히트 싱 카우차완(Mohit Chauhan)은 이것이 자동차 사고를 "나무에 들이받음" 대 "벽에 들이받음"으로 분류하는 것과 같다고 말합니다. 그것은 무엇이 일어났는지는 알려주지만, 사고가 나기 전에 어떻게 운전자를 잡아낼지는 알려주지 않습니다.

이 논문은 DECK이라는 새로운 방식의 실수 분류법을 소개합니다. 오류의 내용을 보는 대신, 오류가 남기는 *신호(signal)*를 봅니다. 이 방식은 "어떤 유형의 탐지기가 이 오류를 찾아냈을 것인가?"라고 묻습니다.

두 가지 탐지기 (두 축)

이 시스템을 구축하기 위해 저자들은 로봇을 관찰하는 두 가지 간단한 "센서"를 사용합니다.

일관성 센서 (The "Repeat" Test - 반복 테스트): 로봇에게 같은 질문을 10번 했을 때, 매번 같은 답을 내놓습니까?
- 높은 일관성: 항상 같은 답을 반복합니다.
- 낮은 일관성: 매번 다른 답을 내놓습니다.
확신도 센서 (The "Sure-Thing" Test - 확신 테스트): 로봇이 얼마나 확신에 차 있습니까? "100% 확실하다"고 말합니까, 아니면 주저하는 기색이 있습니까?
- 높은 확신도: "저는 100% 확신합니다."
- 낮은 확신도: "제 생각에는 아마도..."

DECK 분류 체계 (네 개의 상자)

이 두 센서를 교차하여 저자들은 네 가지 유형의 실수가 담긴 2x2 그리드를 만듭니다. 그들은 이들에게 매력적인 이름을 붙여주었습니다.

1. 드리프트 (Drift - "혼란스러운 표류자")

겉모습: 로봇이 확신에 차 있지만, 물을 때마다 다른 오답을 내놓습니다.
비유: 아주 크고 당당한 목소리로 말하지만, 당신이 "박물관이 어디인가요?"라고 물을 때마다 매번 다른 방향을 가리키는 가이드와 같습니다. 그들은 자신만만하지만, 길을 잃고 표류하고 있습니다.
누가 잡아내는가? 블랙박스 탐지기(답변들이 서로 일치하는지 확인하는 도구)가 이를 잡아낼 수 있습니다. 왜냐하면 답변들이 서로 일치하지 않기 때문입니다.

2. 엔트렌치드 (Entrenched - "고집 센 노새")

겉모습: 로봇이 확신에 차 있으며, 매번 정확히 똑같은 오답을 내놓습니다.
비유: 이는 틀린 정답지를 통째로 외워버린 학생과 같습니다. "2+2는 무엇인가요?"라고 물으면, 몇 번을 물어도 자신 있게 "5"라고 답할 것입니다. 그들은 오개념에 단단히 박혀(entrenched) 있습니다.
누가 잡아내는가? 이것이 가장 어렵습니다. 일관성 탐지기는 답변이 일정하기 때문에 이를 옳다고 판단합니다! 오직 판사(Judge)(사실을 알고 있는 제2의 독립된 AI)만이 이를 잡아낼 수 있습니다.

3. 컨파뷸레이션 (Confabulation - "망설이는 날조가")

겉모s: 로봇이 불확실해하며, 매번 다른 오답을 내놓습니다.
비유: 로봇이 "잘 모르겠지만, 제 추측으로는... 아, 사실은 아마 이럴지도 몰라요"라고 말하는 것과 같습니다. 무언가를 지어내고 있지만, 스스로도 추측하고 있다는 것을 알고 있습니다.
누가 잡아내는가? 모두가 잡아냅니다. 확신도가 낮고 일관성도 없기 때문에, 모든 탐지기가 이를 "위험함"으로 표시합니다.

4. 너티드 (Knotted - "엉킨 덤불")

겉모습: 로봇이 불확실하지만(낮은 확신도), 매번 정확히 똑같은 오답을 내놓습니다.
비유: 틀리는 것을 두려워하는 로봇이 "확실하진 않지만, 아마 X인 것 같아요"라고 말하며, 매번 "아마 X"라고 반복하는 상황과 같습니다. 안전하고 반복적인, 그러나 틀린 패턴 속에 엉켜(knotted) 있습니다.
누가 잡아내는가? 화이트박스 탐지기(로봇의 내부 수학적 계산을 들여다보는 도구)가 이를 잡아낼 수 있습니다. 로봇의 내부 계산 결과가 실제로는 확신이 없음을 보여주기 때문입니다.

거대한 발견: "보편적 사각지대 (Universal Blind Spot)"

연구진은 모든 탐지기가 동시에 실패하는 무서운 상황을 발견했습니다.

그들은 아무도 답할 수 없는 질문(예: "아직 존재하지 않는 국가의 수도는 어디인가요?")에 대해 로봇을 테스트했습니다.

로봇은 "모릅니다"라고 말하지 않았습니다.
대신, 자신 있게 가짜 답을 만들어냈고 매번 그것을 반복했습니다.

이것은 완벽한 함정을 만들었습니다:

일관성 센서는 답변이 반복되는 것을 보고 "좋아, 일관성이 있군!"이라고 생각했습니다.
확신도 센서는 로봇이 확신에 차 있는 것을 보고 "좋아, 확신도가 높군!"이라고 생각했습니다.
판사 역시 실패했습니다. 판사 또한 존재하지 않는 국가에 대해 알지 못했기 때문입니다.

저자들은 이를 **"보편적 사각지대"**라고 부릅니다. 로봇이 자신이 전혀 모르는 것에 대해 자신 있게 거짓말을 반복할 때, 현재의 어떤 탐지기로도 이를 잡아낼 수 없습니다.

해결책

이 논문은 더 나은 탐지기를 만들어 특정 거짓말을 잡으려 하기보다, **"거절 봉투(Refusal Envelope)"**를 구축해야 한다고 제안합니다. 이는 클럽의 문지기와 같습니다. 질문이 로봇이 알 수 없는 영역(지식의 공백)에 관한 것이라면, 문지기는 로봇이 무언가를 지어내기 전에 미리 개입하여 "답변할 수 없습니다"라고 말하며 로봇의 답변을 차단해야 합니다.

요약

이 논문은 단순히 "AI가 실수를 한다"고 말하는 것이 아닙니다. "AI는 네 가지 특정한 패턴으로 실수를 한다. 어떤 패턴은 잡기 쉽고, 어떤 패턴은 어렵다. 그리고 한 가지 특정 패턴(알지 못하는 것에 대해 자신 있게 반복하는 거짓말)은 현재의 도구로는 잡는 것이 불가능하다. 우리는 로봇이 그런 질문에 답하는 것 자체를 막아야 한다"라고 말하고 있습니다.

기술 요약: DECK – LLM 환각에 대한 일관성 × 신뢰도 분류 체계

문제 정의

기존의 대규모 언어 모델(LLM) 환각 분류 체계는 출력 실패의 성격(예: 암기된 오개념, 추론 실패, 유창한 날조)을 기준으로 오류를 분류한다. 이러한 프레임워크는 진단에는 유용하지만, 다음과 같은 핵심적인 배포 질문을 해결하지 못한다: 특정 오류를 탐지해낼 수 있는 불확실성 정량화(UQ) 스코러는 무엇인가?

현재 문헌은 세 가지 주요 출력 레벨 UQ 스코러 군을 제시한다:

블랙박스(Black-box, BB): 샘플 간 일관성 검사 (예: 의미적 엔트로피, 셀프 체크).
화이트박스(White-box, WB): 토큰 레벨 로그 확률 측정.
LLM-as-a-Judge (J): 별도 모델에 의한 사실 검토.

그러나 특정 환각 유형과 이 스코러 군들이 읽어내는 탐지 시그니처 사이의 관계는 암묵적으로만 존재한다. 탐지 축(detection axis)에 기반한 분류 체계 없이는, 새로운 도메인에 적합한 스코러를 선택하는 작업이 휴리스틱한 추측에 머물게 된다. 또한, 왜 특정 앙상블이 다른 것보다 우수한 성능을 보이는지, 그리고 보편적인 실패 모드가 존재하는지에 대한 기계론적 이해가 부족하다.

방법론

DECK 분류 체계

본 논문은 환각을 의미적 내용이 아닌 **탐지 가능성 시그니처(detectability signature)**에 따라 분류하는 보완적 분류 체계인 DECK를 제안한다. DECK는 두 가지 관찰 가능한 축을 기준으로 환각을 $2 \times 2$ 그리드로 분할한다:

샘플 간 일관성 (Inter-sample Consistency): 모델이 여러 개의 독립적인 확률적 샘플링에 걸쳐 동일한 오답을 생성하는가?
토큰 레벨 신뢰도 (Token-level Confidence): 모델이 생성된 응답의 토큰들에 높은 확률을 할당하는가?

이를 통해 네 가지 행동 양식(Table 1)이 도출된다:

드리프트 (Drift, D): 낮은 일관성, 높은 신뢰도. 모델이 각 샘플마다 서로 다르지만 확신에 찬 오답을 생성함.
고착 (Entrenched, E): 높은 일관성, 높은 신뢰도. 모델이 암기된 오개념이나 공유된 사전 학습 오류에 고착되어 변동 없이 이를 재현함.
작작 (Confabulation, C): 낮은 일관성, 낮은 신뢰도. 모델이 진정으로 지식이 부족하여, 낮은 신뢰도와 함께 서로 다른 오답을 생성함.
매듭 (Knotted, K): 높은 일관성, 낮은 신뢰도. 모델이 동일한 완곡한 표현 혹은 오답을 일관되게 반복하지만, 토큰 확률은 낮게 할당함.

운용화: 셀 멤버십은 BB(일관성) 및 WB(신뢰도) 스코어 점수에 대해 조건별로 Youden's J 최적 임계값을 적용하여 결정된다.

실험 설정

모델: Llama-3-8B (오픈 웨이트), GPT-4o (클로즈드 웨이트), Gemini-2.5-Flash (클로즈드 웨이트).
데이터셋: TriviaQA (사실적), HaluEval (적대적 환각), SelfAware (답변 불가능한 질문/지식 공백), PopQA (엔티티 중심, 인기도별 계층화).
스코러: 편향을 피하기 위해 각 분할(split)당 가장 높은 AUROC를 기준으로 선택된 15가지 구성의 세 가지 계열(BB, WB, Judge).
평가 지표:
- AUROC: 스코러별 성능.
- 상보성 ( $C_H$ ): 두 스코러가 서로 다른 결과를 낸 환각 샘플의 비율.
- 외부 검증: 외부 레이블(예: 엔티티 인기도, 적대적 성격)이 예측된 DECK 셀에 부합하는지 확인.

주요 기여

DECK 분류 체계: 무엇이 틀렸는가가 아니라 어떻게 오류가 탐지되는지로 분류하는 패러다임의 전환이다. 이는 네 가지 행동 양식을 세 가지 스코러 군의 강점 및 약점과 명시적으로 매핑한다:
- 드리프트 (Drift): BB와 Judge에 의해 탐지 가능.
- 고착 (Entrenched): 독립적인 Judge에 의해서만 탐지 가능 (BB와 WB는 맹점).
- 작작 (Confabulation): 세 가지 스코러 군 모두에 의해 탐지 가능.
- 매듭 (Knotted): WB와 Judge에 의해 탐지 가능.
보편적 맹점의 식별: 본 논문은 모든 출력 레벨 UQ 군이 동시에 붕괴하는 영역을 식별한다. 생성기가 확신에 찬 반복적 허구를 생성하는 "지식 공백(knowledge-gap)" 입력의 경우, BB는 높은 합의를, WB는 높은 토큰 확률을 보이며, Judge 역시 동일한 지식 공백을 공유한다. 이 영역에서 출력 레벨 UQ는 구조적으로 실패한다.
앙상블의 기계론적 검증: 앙상블이 왜 작동하는지에 대한 구조적 설명을 제공한다. 스코러 간의 불일치가 무작위가 아니라 특정 DECK 사분면(예: BB는 Entrenched/Knotted를 놓치고, WB는 Drift/Entrenched를 놓침)에 집중되어 있음을 입증함으로써, 스코러 군 간의 상보성을 검증한다.

결과

분류 체계 검증

불일치 분석: 12개의 모델-데이터셋 조합 전반에서 스코러 쌍 간의 불일치 패턴이 DECK 예측과 일치함을 보여준다. 예를 들어, BB-Judge 불일치는 BB의 맹점인 Entrenched 및 Knotted 셀에 집중되며, WB-Judge 불일치는 Drift 및 Confabulation에 집중된다.
외부 신호 검증:
- SelfAware (답변 불가능): 샘플들이 주로 Entented 셀에 위치함 (모델 전반에 걸쳐 62~71%). 이는 지식 공백 환각이 확신에 찬 반복적 오류로 나타난다는 가설을 확인시켜 준다.
- PopQA (희귀 엔티티): 샘플들이 주로 Confabulation에 위치하며, 이는 모델이 특정 엔티티 지식이 부족함을 반영한다.
- PopQA (인기 엔티티): 샘플들이 Entrenched에 위치하며, 이는 암기된 오개념을 반영한다.
- HaluEval: 모델 의존적인 분포를 보이며, 종종 Entrenched와 Knotted/Confabulation 사이를 오간다.

보편적 맹점

SelfAware 데이터셋(지식 공백)에서 세 가지 스코러 군 모두가 거의 무작위 수준의 성능(AUROC $\approx$ 0.5 이하)으로 붕괴했다.

GPT-4o: 15개 스코러 중 13개가 0.5 AUROC 미만으로 떨어졌으며, $P(\text{True})$ 가 0.331로 역전되었다.
내부 상태 프로브: Llama-3-8B의 마지막 레이어 은닉 상태에 대한 선형 프로브 또한 SelfAware에서 무작위 수준으로 붕괴했다(AUROC 0.44). 이는 실패 모드가 출력 레벨뿐만 아니라 활성화 레벨에서도 지속됨을 시사한다.
결론: 출력 레벨 UQ의 어떤 앙상블도 이러한 오류를 탐지할 수 없다. 유일한 엔지니어링 대응책은 이러한 입력을 거절(refusal)이나 검색(retrieval)으로 라우팅하기 위한 **기권 포락선(abstention envelope)**을 구축하는 것이다.

모델 규모 효과

TriviaQA: Llama-3-8B에서 GPT-4o로 규모가 커짐에 따라 잔여 불일치가 Confabulation/Knotted에서 Drift로 이동했다. 더 큰 모델은 더 확신에 차고 반복적인 환각을 생성하며, 이는 Judge에 의해 탐지되지만 BB 일관성 체크에는 포착되지 않는다.
PopQA: 모델 규모가 커질수록 Judge와 다른 계열 간의 상보성이 크게 증가했으며, 특히 엔티티 중심 쿼리에서 두드러졌다.

의의 및 주장

본 논문은 DECK가 단순한 경험적 앙상블을 넘어, 특정 스코러가 왜 서로를 보완하는지에 대한 구조적 이해를 제공함으로써 LLM의 불확실성 정량화에 대한 기계론적 설명을 제공한다고 주장한다.

진단적 유용성: DECK를 통해 실무자는 특정 유형의 환각(예: BB가 Entrenched 오류에서 실패할 것)에 대해 어떤 스코러 군이 실패할지 예측할 수 있다.
출력 레벨 UQ의 한계: 본 논문은 모델이 확신을 가지고 틀린 답을 내놓는 지식 공백 입력에 대해, 출력 레벨 UQ가 근본적이고 보편적인 맹점을 가지고 있음을 단호하게 주장한다. 이는 특정 알고리즘의 문제가 아니라 (생성기, 태스크) 쌍의 속성이다.
내부 상태 증거: 은닉 상태에 대한 단순한 선형 프로브마저 이 입력에서 실패한다는 예비적 발견은, 이 실패가 출력 레벨뿐만 아니라 모델의 활성화 공간 깊숙이 존재함을 시사한다. 다만 저자들은 더 풍부한 내부 상태 방법론(예: UQ 헤드, 정보 이론적 추정치)에 대한 추가 테스트가 필요함을 언급한다.

결론적으로, 앙상블은 많은 영역에서 성능을 개선하지만, 답변 불가능한 입력에 대한 확신에 찬 반복적 허구라는 보편적 맹점을 극복할 수는 없다. 적절한 엔지니어링 대응은 더 복잡한 앙상블을 만드는 것이 아니라, 시스템 레벨의 **기권 메커니즘(abstention mechanism)**을 구축하는 것이다.

DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations