Lyapunov Probes for Hallucination Detection in Large Foundation Models

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 아이디어: AI 의 두뇌는 '안정적인 땅'과 '위험한 절벽'으로 나뉩니다

대부분의 기존 연구들은 AI 가 거짓말을 할 때를 단순히 "정답인가, 오답인가?"를 분류하는 문제로만 보았습니다. 하지만 이 논문은 조금 다른 시각을 제시합니다.

"AI 의 지식 공간은 지도와 같습니다."

안정적인 평지 (Stable Known Region): AI 가 사실을 확실히 알고 있는 곳입니다. 여기서는 아무리 작은 돌을 던져도 (질문을 살짝 바꿔도) AI 는 똑같은 정답을 줍니다.
안정적인 빈 땅 (Stable Unknown Region): AI 가 모르는 내용이지만, "모른다"고 단정적으로 말하는 곳입니다. 여기서는 질문을 바꿔도 "모른다"는 반응이 일관되게 나옵니다.
위험한 절벽 (Unstable Knowledge Boundary): 여기가 바로 '환각'이 발생하는 곳입니다. AI 가 사실을 알고 있는 영역과 모르는 영역이 만나는 경계선입니다. 이곳에서는 아주 작은 변화 (질문의 단어 하나만 바뀜) 가 있어도 AI 의 반응이 극적으로 변하며, 엉뚱한 거짓말을 지어낼 확률이 매우 높습니다.

이 논문은 **"AI 가 이 '위험한 절벽' 근처에 있는지 감지하면, 거짓말을 막을 수 있다"**는 가설을 세웠습니다.

🛡️ 해결책: '라이아푸노프 탐지기 (Lyapunov Probe)'

저희가 개발한 이 장치는 마치 지진계나 안전 검사관과 같습니다.

작동 원리: AI 가 답변을 내놓기 전, AI 의 내부 두뇌 (은닉 상태) 에 **의도적으로 작은 흔들림 (Perturbation)**을 줍니다.
- 예를 들어, "이 강아지는 어떤 품종인가요?"라는 질문에 "이 강아지는 어떤 종류인가요?"라고 살짝 바꿔 물어보거나, AI 의 내부 데이터에 아주 작은 잡음을 섞어봅니다.
판단 기준:
- 안정적인 지역 (사실): 흔들림을 줘도 AI 의 답변이 일관되게 유지됩니다. (예: "골든 리트리버입니다" → "골든 리트리버입니다")
- 위험한 지역 (환각): 아주 작은 흔들림에도 AI 의 답변이 뚝뚝 끊기거나 완전히 달라집니다. (예: "골든 리트리버입니다" → 갑자기 "시바견입니다"로 변함)

이처럼 흔들림에 대해 AI 의 자신감 (신뢰도) 이 얼마나 빠르게 떨어지는지를 측정하는 수학적 원리를 **'라이아푸노프 안정성'**이라고 합니다. 이 논문의 핵심은 AI 가 거짓말을 지어낼 때, 이 자신감이 불안정하게 급격히 떨어진다는 것을 발견하고 이를 감지하는 장치를 만든 것입니다.

🏗️ 어떻게 훈련했나요? (두 단계 교육)

이 탐지기를 훈련할 때 두 가지 단계를 거쳤습니다.

1 단계 (기초 학습): "이건 사실인가, 가짜인가?"를 구분하는 기본적인 능력을 기릅니다.
2 단계 (안정성 훈련): "질문을 살짝 바꿔도 답변이 흔들리지 않아야 한다"는 규칙을 강제합니다. 만약 질문을 살짝 바꿨는데 AI 의 자신감이 떨어지지 않는다면, 탐지기는 "아, 이건 사실일 가능성이 높다"고 판단하고, 자신감이 급격히 떨어지면 "위험하다, 거짓말일 수 있다"고 경고합니다.

🌟 왜 이 방법이 특별한가요?

이론적 근거: 단순히 "패턴을 외운" 것이 아니라, 수학적으로 증명된 '시스템의 안정성' 이론을 적용했습니다.
범용성: 특정 주제 (예: 역사) 에만 훈련된 것이 아니라, AI 가 지식을 다루는 근본적인 방식을 학습했기 때문에, 훈련하지 않은 새로운 분야 (예: 의학, 과학) 에서도 잘 작동합니다.
다층적 분석: AI 의 두뇌는 여러 층 (Layer) 으로 되어 있는데, 이 탐지기는 중간 층과 깊은 층의 정보를 모두 합쳐서 판단합니다. 마치 건물의 기초부터 지붕까지 모두 점검하는 것과 같습니다.

📊 결론

이 연구는 AI 가 **"무엇을 알고 있는지"**뿐만 아니라 **"어디서부터 불안정해지기 시작하는지"**를 감지함으로써, AI 가 위험한 절벽 (거짓말) 에 빠지기 전에 미리 경고할 수 있는 시스템을 만들었습니다.

한 줄 요약:

"AI 가 거짓말을 할 때는 두뇌가 '흔들림'에 매우 불안정해진다는 사실을 발견했고, 이 흔들림을 감지하는 **안전 검사관 (라이아푸노프 탐지기)**을 만들어 AI 의 신뢰도를 높였습니다."

이 방법은 의료, 법률, 금융 등 실수가 치명적인 분야에서 AI 를 더 안전하게 사용할 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 과 멀티모달 대형 언어 모델 (MLLM) 은 다양한 분야에서 뛰어난 성능을 보이지만, 사실과 다른 내용을 생성하는 할루시네이션 (Hallucination) 문제가 고위험 분야 (의료, 법률, 금융 등) 에의 적용을 제한하는 주요 장애물입니다.

기존의 할루시네이션 탐지 방법들은 크게 두 가지 패러다임으로 나뉩니다:

외부 검증 (External Verification): 지식 베이스와 출력을 비교하는 방식. 하지만 광범위하고 지속적으로 업데이트된 사실 데이터베이스가 필요하여 비용이 많이 들고 범위가 제한적입니다.
내부 특징 기반 (Internal Feature-based): 모델의 표현 (representation) 이나 토큰 확률에 기반한 분류기 학습. 하지만 이러한 방법들은 할루시네이션이 발생하는 근본적인 메커니즘 (왜, 어디서 발생하는지) 을 이론적으로 설명하지 못하며, 단순한 패턴 인식 문제로 접근한다는 한계가 있습니다.

저자들은 할루시네이션이 무작위적인 오류가 아니라, **모델의 지식 공간 내에서 '안정적인 사실 영역'과 '불안정한 불확실성 영역'이 만나는 경계 (Knowledge Boundary)**에서 체계적으로 발생한다고 가정합니다.

2. 방법론 (Methodology)

이 논문은 동역학 시스템 (Dynamical Systems) 의 Lyapunov 안정성 이론을 도입하여 할루시네이션 탐지 문제를 재정의합니다.

2.1. 동역학 시스템 관점에서의 모델링

(M)LLM 을 고차원 동역학 시스템으로 간주: 입력에 대한 모델의 내부 표현 (hidden states) 이 동역학 시스템 $F$ 를 통해 진화한다고 봅니다.
영역 구분:
- 안정적인 지식 영역 (Stable Knowledge, SK): 작은 섭동 (perturbation) 에도 사실적 일관성을 유지하는 영역.
- 안정적인 미지 영역 (Stable Unknown, SU): 모델이 지식을 가지고 있지 않지만, 섭동에 대해 '모른다'는 일관된 반응을 보이는 영역.
- 불안정한 지식 경계 (Unstable Knowledge Boundary, B): 작은 변화에도 모델의 반응이 급격히 변하고 할루시네이션이 발생할 확률이 높은 전이 영역.
핵심 아이디어: 할루시네이션은 이 불안정한 경계 영역에서 발생합니다.

2.2. Lyapunov Probe 설계

안정성 이론을 실제 탐지기에 적용하기 위해 Lyapunov Probe라는 경량 네트워크를 제안합니다.

입력: 모델의 여러 층 (Layers) 에서 추출된 숨겨진 상태 (hidden states) 와 의도적으로 가해진 섭동 (Perturbation) 정보.
구조:
- HiddenProcessor: Transformer 기반의 어텐션 메커니즘을 사용하여 층 간 의존성을 포착.
- Classifier: 3 층 MLP 구조로, 사실성 점수 (0~1) 를 출력.
섭동 전략:
- 의미적 섭동 (Semantic): 단어 교체, 문장 구조 변경 등.
- 표현적 섭동 (Representational): 숨겨진 상태에 가우시안 노이즈 주입.
- 섭동의 강도를 점진적으로 증가시키며 모델의 안정성을 측정합니다.

2.3. 학습 전략 및 손실 함수

Probe 는 두 단계 학습 과정을 거치며, 다음 두 가지 손실 함수를 최소화합니다:

이진 교차 엔트로피 손실 ( $L_{BCE}$ ): 섭동이 없는 상태에서 사실 여부를 분류하는 기본 능력을 학습.
Lyapunov 제약 손실 ( $L_{Lyapunov}$ ): 핵심 기여. 섭동의 크기 ( $\delta$ $δ$ ) 가 증가함에 따라 Probe 의 신뢰도 (confidence) 가 **단조 감소 (monotonic decay)**해야 한다는 조건을 강제합니다.
- 수식: $\frac{\partial V(h, \delta)}{\partial \|\delta\|} < 0$
- 이는 Lyapunov 함수가 안정 상태에서는 최대가 되고, 불안정 상태 (섭동 증가) 로 갈수록 감소해야 한다는 이론적 조건을 반영합니다.

3. 주요 기여 (Key Contributions)

이론적 프레임워크 정립: 동역학 시스템의 안정성 이론과 할루시네이션 탐지를 연결하여, 지식 경계를 '안정적'과 '불안정적' 영역 간의 전이로 해석하는 새로운 관점을 제시했습니다.
Lyapunov Probe 개발: 도함수 기반의 손실 함수, 다중 스케일 섭동, 2 단계 학습 과정을 통해 모델의 표현 공간 안정성을 측정하는 실용적인 도구를 설계했습니다.
심층 분석 및 검증: 다양한 벤치마크와 모델 (LLM 및 MLLM) 에서 실험을 통해, 할루시네이션이 불안정한 경계에서 발생함을 증명하고, **중간~후반 층 (mid-to-late layers)**의 정보가 안정성 신호를 포착하는 데 가장 효과적임을 규명했습니다.

4. 실험 결과 (Results)

다양한 오픈소스 모델 (Llama-2/3, Qwen, Falcon, LLaVA 등) 과 8 개의 벤치마크 (TriviaQA, PopQA, CoQA, MMLU, POPE 등) 에서 실험을 수행했습니다.

성능 향상: 기존 베이스라인 (Verbalized confidence, Surrogate, 일반 Probe 등) 대비 일관된 성능 개선을 보였습니다.
- LLM: 평균 AUPRC(정밀도 - 재현율 곡선 아래 면적) 에서 기존 Probe 대비 6.2%, 확률 기반 방법 대비 18.5% 향상.
- MLLM: 멀티모달 작업에서 평균 2.1% 향상. 특히 저화질 이미지나 노이즈가 많은 VizWiz-VQA 와 같은 어려운 작업에서 큰 개선 (평균 3.6% 향상) 을 보였습니다.
Lyapunov 속성 검증: 섭동 강도가 증가함에 따라 Probe 점수가 단조 감소하는지 확인한 결과, 제안된 방법은 이론적 조건을 만족하는 반면 기존 방법은 비단조적인 변동을 보였습니다.
교차 도메인 일반화: TriviaQA 로 학습된 Probe 를 CoQA 나 PopQA 와 같은 다른 도메인에 적용했을 때도 높은 성능을 유지하여, 이 방법이 데이터셋 특이적이지 않고 보편적인 지식 경계 특성을 포착함을 입증했습니다.
층별 분석: 단일 층보다 여러 층의 숨겨진 상태를 융합하는 것이 가장 우수한 성능을 냈으며, 특히 모델의 중간~후반 층이 사실성 판단에 중요한 정보를 담고 있음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 할루시네이션 탐지를 단순한 분류 문제가 아닌 시스템의 안정성 분석 문제로 재정의함으로써, 할루시네이션의 근본적인 원인을 이해하고 탐지하는 새로운 패러다임을 제시했습니다.

이론적 엄밀성: Lyapunov 안정성 이론을 적용하여 탐지기의 동작 원리를 수학적으로 설명 가능하게 했습니다.
실용성: 경량화된 Probe 를 통해 기존 모델의 추가 학습 없이도 (또는 적은 비용으로) 할루시네이션을 효과적으로 탐지하고, 모델이 답변을 회피 (abstain) 해야 할 시점을 판단하여 신뢰성을 높일 수 있습니다.
확장성: 텍스트 기반 LLM 뿐만 아니라 멀티모달 모델 (MLLM) 에도 효과적으로 적용 가능하여, 향후 AI 시스템의 안전성과 신뢰성 확보에 중요한 기여를 할 것으로 기대됩니다.