Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (LLM) 이 때때로 사실이 아닌 말을 마치 사실인 것처럼 뚝심 있게 말하는 '환각 (Hallucination)' 현상을 어떻게 해결할지 제안합니다.

저자는 이 문제를 단순히 "거짓말을 고치는 것"이 아니라, **"내부에서 만든 상상을 외부의 증거로 잘못 분류하는 오류"**로 봅니다. 이를 해결하기 위해 두 가지 장치를 함께 쓰는 **'복합 방어 시스템'**을 개발했다고 합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🧠 핵심 비유: "지식이 풍부한 하지만 과신하는 요리사"

인공지능을 매우 유창하게 요리하는 요리사라고 상상해 보세요.

문제점: 요리사가 손님이 "이 재료로 어떤 요리를 할 수 있나요?"라고 물었을 때, 냉장고에 재료가 없으면 (증거가 부족할 때), 요리사는 자신의 기억과 상상력만으로 "아, 이거라면 이런 요리를 만들 수 있죠!"라고 아주 자신 있게 말해버립니다. 이것이 바로 '환각'입니다.

이 논문은 이 문제를 해결하기 위해 두 명의 감시관을 배치하는 시스템을 제안합니다.

1. 첫 번째 감시관: "양심 있는 요리사" (Instruction-based Refusal)

역할: 요리사에게 "자네, 냉장고에 재료가 없으면 무조건 '모르겠다'고 말해라"라고 지시를 내리는 것입니다.
장점: 대부분의 경우 잘 작동합니다. 재료가 없으면 요리사가 "모르겠습니다"라고 정직하게 말합니다.
단점 (과도한 조심): 때로는 재료가明明 있는데도, 요리사가 "아, 혹시 이 재료가 안 맞을까?"라고 너무 걱정해서 실제 가능한 요리도 거절해버립니다. (정답을 알고 있는데도 "모르겠다"고 하는 실수)
또 다른 단점: 요리사의 지능이 낮으면 (예: GPT-3.5), "무조건 모르겠다"는 지시를 무시하고 여전히 엉뚱한 요리를 만들어냅니다.

2. 두 번째 감시관: "기계적인 검사관" (Structural Abstention Gate)

역할: 요리사의 말에 귀를 기울이는 게 아니라, 수치로 확인하는 기계입니다.
- "이 요리법이 3 번 말해봐도 똑같아? (일관성)"
- "말을 바꿔서 물어봐도 같은 뜻이야? (안정성)"
- "요리 설명에 냉장고에 있는 재료 이름이 들어갔어? (근거)"
- 이 세 가지 점수가 낮으면, 요리사가 아무리 "내가 확신해!"라고 외쳐도 기계적으로 입을 막습니다.
장점: 요리사가 지능이 낮거나 지시를 무시하더라도, 기계는 무조건 증거가 없으면 입을 닫게 합니다.
단점 (자신감 있는 거짓말): 만약 요리사가 거짓말을 아주 일관되고 안정적으로 해낸다면 (예: 서로 다른 두 레시피 중 하나를 골라 아주 확신 있게 말함), 기계는 "오, 이 요리사는 일관성이 좋네!"라고 착각해서 거짓 요리를 통과시켜버립니다.

🛡️ 해결책: "두 감시관을 한 팀으로" (Composite Architecture)

이 논문이 발견한 가장 중요한 사실은 **"한 명만 믿으면 실패한다"**는 것입니다.

양심 있는 요리사만 믿으면: 실제 가능한 요리도 거절하거나, 지능이 낮은 요리사는 거짓말을 합니다.
기계 검사관만 믿으면: 요리사가 아주 자신 있게 거짓말을 할 때 (상호 모순된 정보 중 하나를 골라 확신 있게 말할 때) 이를 잡아내지 못합니다.

그래서 두 가지를 합쳤습니다.

"요리사가 '모르겠다'고 하거나, 기계 검사관이 '증거 부족'이라고 판단하면 둘 중 하나라도 걸리면 출입구를 닫는다."

이 복합 시스템을 적용한 결과:

거짓말 (환각) 비율: 30~~50% 에서 **0~~4%**까지 급감했습니다.
정답률: 거의 100% 를 유지하면서도, 거짓말을 하지 않았습니다.

📊 실험 결과 요약 (일상 언어로)

기본 상태 (방어 없음): 요리사는 증거가 없어도 "내 기억으로 알아요"라고 30~50% 확률로 거짓말을 합니다.
지시만 준 상태: "모르면 말하지 마"라고 했더니, 고급 요리사 (GPT-4) 는 거짓말을 안 했지만, 실제 가능한 요리도 10% 정도 거절했습니다. 반면 하급 요리사 (GPT-3.5) 는 지시를 무시하고 여전히 거짓말을 했습니다.
기계 검사만 둔 상태: 하급 요리사의 거짓말은 막았지만, 자신감 넘치는 거짓말은 잡아내지 못했습니다.
두 가지 합친 상태 (최고의 성과):
- 거짓말은 거의 사라졌습니다 (0~4%).
- 고급 요리사는 때때로 과하게 조심해서 정답을 거절하는 경향이 있지만, 하급 요리사의 거짓말까지 막아냈습니다.
- 특히 증거가 전혀 없는 상황에서는 기계 검사관이 "무조건 말하지 마"라는 안전 장치를 제공하여, 어떤 요리사든 거짓말을 못 하게 만들었습니다.

💡 결론: 왜 이 연구가 중요한가?

이 연구는 **"인공지능이 거짓말을 할 때, 단순히 '거짓말을 고치려' 하지 말고, '거짓말을 하기 전에 멈추게 하는 문'을 만들어야 한다"**고 말합니다.

한 가지 방법만으로는 부족합니다. (지시만 주거나, 기계만 믿거나)
서로 다른 약점을 보완해야 합니다. (요리사의 양심 + 기계의 냉정한 검사)
결과: 이 두 가지를 합치면, 인공지능이 "내가 모르는 건 모른다고 말하고, 아는 건 정확히 말하는" 훨씬 안전한 도구가 됩니다.

마치 비행기를 탈 때, 조종사 (요리사) 의 실수를 막기 위해 자동 조종 장치 (기계 검사) 가 함께 작동하는 것과 같은 원리입니다. 둘 다 있어야 가장 안전합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대형 언어 모델 (LLM) 은 입력 증거 없이도 유창한 텍스트를 생성하는 경향이 있어 '환각 (Hallucination)'이 발생합니다. 기존 연구들은 주로 생성된 후 (Post-hoc) 에 사실을 검증하거나 수정하는 데 초점을 맞추었으나, 본 논문은 환각을 **생성 과정이 끝난 후의 오류가 아닌, '출력 경계 (Output Boundary) 에서의 오분류 (Misclassification)'**로 재정의합니다.

핵심 통찰: 모델이 내부적으로 생성된 내용 (Prior-only generation) 을 외부 증거에 기반한 답변 (Evidence-backed generation) 과 구별하지 못하고, 증거가 부족한 상태에서도 답변을 출력하는 것이 환각의 본질입니다.
제안: 생성 후 수정이 아닌, **출력 전 (Pre-output)**에 증거 부족을 감지하고 출력을 차단 (Abstention) 하는 제어 이론적 접근이 필요합니다.

2. 방법론 (Methodology)

저자는 단일 메커니즘의 한계를 극복하기 위해 **지시 기반 거절 (Instruction-based refusal)**과 **구조적 기피 게이트 (Structural abstention gate)**를 결합한 **복합 아키텍처 (Composite Architecture)**를 제안했습니다.

A. 지지 부족 점수 (Support-Deficit Score, $S_t$ )

모델 내부 접근 없이 외부 신호만으로 계산 가능한 블랙박스 지표를 사용합니다.

자기 일관성 ( $A_t$ ): $K=3$ 개의 독립적인 응답을 생성하여 다수결로 일치하는 비율을 측정.
개사 안정성 ( $P_t$ ): 질문을 재구성하여 다시 입력했을 때 응답의 의미적 중첩도를 측정.
인용 커버리지 ( $C_t$ ): 응답의 핵심 단어가 제공된 컨텍스트에 얼마나 포함되어 있는지 키워드 중첩으로 측정.

이 세 가지 신호를 기반으로 지지 부족 점수를 계산합니다:
$S_t = 1 - \frac{A_t + P_t + C_t}{3}$

$S_t$ 가 임계값 ( $\tau = 0.55$ ) 을 초과하면 출력을 차단 (ABSTAIN) 합니다.

B. 실험 조건

50 개의 항목 (5 가지 인식적 regimes: 답변 가능, 답변 불가, 상충되는 증거, 검색 저하, 적대적 압박) 에 대해 3 가지 모델 (GPT-3.5-turbo, GPT-4o-mini, GPT-4o) 로 다음 4 가지 조건을 비교했습니다.

Baseline: 기본 생성.
Instruction-only: "증거가 부족하면 답하지 마라"는 지시 프롬프트만 사용.
Hard-gated: 지시 없이 $S_t > \tau$ 일 때만 구조적으로 차단.
Composite: 지시 기반 거절과 구조적 게이트를 논리 OR 로 결합 (어느 하나라도 차단 조건을 만족하면 출력 차단).

3. 주요 기여 (Key Contributions)

이론적 프레임워크: 환각을 '출력 경계에서의 오분류'로 정의하고, 이를 제어 이론적 모델 (생물학적 추론의 오분류 루프와 유사) 로 설명.
블랙박스 지표 개발: 모델 내부 파라미터 없이 계산 가능한 3 가지 신호 ( $A_t, P_t, C_t$ ) 를 활용한 지지 부족 점수 도출.
상호 보완적 실패 모드 규명: 지시 기반 방식과 구조적 게이트는 서로 다른 실패 모드를 가지며, 이를 결합해야만 최적의 성능을 낸다는 실증적 증거 제시.
능력 독립적 안전 바닥 (Capability-independent Floor): 모델의 지시 따르기 능력이 떨어질 때 (예: GPT-3.5) 구조적 게이트가 안전 장벽 역할을 함을 TruthfulQA 스트레스 테스트로 입증.

4. 실험 결과 (Results)

A. 통제된 평가 (50 항목)

Baseline: 모든 모델에서 30~50% 의 높은 환각률 발생.
Instruction-only: GPT-4o/mini 는 환각률이 0% 로 감소했으나, 답변 가능한 항목 (R1) 에서 10% 과도한 기피 (Over-cautious abstention) 발생. GPT-3.5 는 6% 의 잔여 환각 발생.
Hard-gated: 답변 가능한 항목에서 100% 정확도 유지 (과도한 기피 없음) 이었으나, 상충되는 증거 (R3) 상황에서 '확신 있는 허구 (Confident Confabulation)'를 놓침 (GPT-4o/mini 에서 70% 환각).
Composite (제안):
- 전체 정확도: 96~98%.
- 환각률: 0~4% 로 대폭 감소.
- 특징: 지시 기반의 과도한 기피 성향과 게이트의 확신 있는 허구 탐지 실패를 상호 보완하여 최적의 균형을 달성.

B. TruthfulQA 스트레스 테스트 (100 항목, 컨텍스트 없음)

모든 항목이 기피 (Abstention) 를 요구하는 환경에서 수행.
Instruction-only: GPT-4o/mini 는 100% 기피했으나, GPT-3.5 는 62% 만 기피하고 38% 는 환각으로 답변.
Gate & Composite: 모든 모델 (GPT-3.5 포함) 에서 98~100% 의 기피율을 유지하여 모델 능력에 의존하지 않는 안전 장벽 역할을 입증.

5. 의의 및 결론 (Significance & Conclusion)

상호 보완성의 중요성: 환각 제어는 단일 메커니즘으로는 불가능하며, 모델의 내부 자각 (지시) 과 외부 구조적 검증 (게이트) 을 결합해야 함을 입증했습니다.
실패 모드의 한계 규명:
- 지시 기반의 한계: 모델이 스스로를 과신하거나 (확신 있는 허구), 지시 따르기 능력이 부족할 때 실패.
- 구조적 게이트의 한계: 모델이 내부적으로 일관성 있고 안정적이지만 외부 증거와 맞지 않는 '확신 있는 허구'를 탐지하지 못함.
실용적 함의: 의료, 법률 등 고위험 분야에서는 1 회 쿼리당 약 22 번의 API 호출 ( $K=3$ 등) 이 소요되는 비용이 발생하지만, 환각을 0% 에 가깝게 줄일 수 있어 가치가 있음.
향후 과제: 더 큰 규모의 벤치마크, 다양한 모델 아키텍처 (Llama, Claude 등) 로의 일반화, 그리고 '상충되는 증거'를 명시적으로 탐지하는 신호 추가 필요.

이 논문은 환각을 단순한 사실 오류가 아닌 증거 기반의 결정 경계 오류로 재정의하고, 이를 해결하기 위한 **이중 방어 체계 (Dual-layer Defense)**의 유효성을 실증적으로 입증했다는 점에서 중요한 의의를 가집니다.

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

🧠 핵심 비유: "지식이 풍부한 하지만 과신하는 요리사"

1. 첫 번째 감시관: "양심 있는 요리사" (Instruction-based Refusal)

2. 두 번째 감시관: "기계적인 검사관" (Structural Abstention Gate)

🛡️ 해결책: "두 감시관을 한 팀으로" (Composite Architecture)

📊 실험 결과 요약 (일상 언어로)

💡 결론: 왜 이 연구가 중요한가?

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

A. 지지 부족 점수 (Support-Deficit Score, StS_tSt​)

B. 실험 조건

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

A. 통제된 평가 (50 항목)

B. TruthfulQA 스트레스 테스트 (100 항목, 컨텍스트 없음)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling

A. 지지 부족 점수 (Support-Deficit Score, $S_t$ )