원저자: Xinyan Zhu, Yaoqi Liu, Yue Gao, Huadong Ma, Cheng Yang, Chuan Shi

게시일 2026-06-19

📖 4 분 읽기☕ 가벼운 읽기

원저자: Xinyan Zhu, Yaoqi Liu, Yue Gao, Huadong Ma, Cheng Yang, Chuan Shi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 매우 똑똑하고 박학다식한 비서(대규모 언어 모델, 즉 LLM)를 고용하여 복잡한 질문에 답하게 한다고 상상해 보세요. 비서가 단순히 사실을 지어내지 않도록, 당신은 사실들이 체계적으로 정리된 거대한 서류함인 **지식 그래프(Knowledge Graph, KG)**를 제공합니다. 당신은 비서에게 "이 특정 폴더들을 살펴보고 무엇을 찾았는지 말해줘"라고 지시합니다.

문제는 무엇일까요? 서류함이 바로 눈앞에 있음에도 불구하고, 비서는 때때로 주의가 산만해지거나, 딴생각을 하거나, 서류함에 없는 사실을 자신 있게 지어내기도 합니다. 이를 **환각(Hallucination)**이라고 부릅니다. 현실 세계에서 만약 당신의 비서가 의사나 변호사를 돕고 있다면, 사실을 지어내는 것은 재앙이 될 수 있습니다.

제공된 논문은 LUCID(LLM 기반 지식 그래프 추론을 위한 환각 탐지 방법)라는 새로운 도구를 소개합니다. LUCID를 당신의 비서가 일하는 모습을 지켜보는 매우 관찰력이 뛰어난 보안 요원이라고 생각해보세요.

LUCID가 어떻게 작동하는지, 쉬운 비유를 통해 나누어 설명하겠습니다.

1. 문제점: "딴생각하는" 비서

저자들은 비서가 올바른 사실을 앞에 두고도 약 **29.65%**의 확률로 답을 지어낸다는 것을 발견했습니다.

예시: 서류함에는 분명히 "PLS Inc.가 'MarketMakers'를 후원한다"라고 적혀 있습니다. 하지만 비서는 서류함을 보다가 이름이 비슷한 "Dealmakers Expo"라는 폴로더를 보고는, 자신 있게 "PLS Inc.가 Dealmakers Expo를 후원합니다"라고 말합니다. 비서는 실제 있는 단어 대신 그럴듯하게 들리는 단어를 선택했기 때문에 환각을 일으킨 것입니다.

2. 해결책: 3중 레이어 보안 요원 (LUCID)

기존의 보안 요원들은 오직 두 가지만 확인했습니다.

"내부 상태" 요원: 비서가 긴장하거나 확신이 없어 보이는가? (비서가 자신 있게 틀린 답을 내놓는 경우는 놓칩니다.)
"텍스트 일치" 요원: 답변이 서류함의 단어와 일치하는가? (이 방식은 사실의 구조를 놓칩니다.)

LUCID는 다릅니다. LUCID는 세 가지 특정 사항을 동시에 점검하는 세 개의 눈을 가진 보안 요원처럼 행동합니다.

눈 1: "집중" 추적기 (LLM 어텐션/Attention)
비서가 레이저 포인터를 가지고 있다고 상상해 보세요. LUCID는 비서가 답변을 쓰는 동안 레이저 포인터가 어디를 비추고 있는지 관찰합니다.
- 핵심 기술: 만약 비서가 "PLS Inc."에 대해 말하고 있는데, 레이저 포인터가 올바른 폴더("MarketMakers")가 아닌 엉뚱한 폴더("Dealmakers") 위에 머물러 있다면, LUCID는 무언가 잘못되었다는 것을 압니다. 이는 비서가 서류함의 정확히 어느 부분을 "보고 있는지"를 측정합니다.
눈 2: "의미" 검사기 (KG 시맨틱/Semantics)
이 눈은 비서가 사용하는 단어들이 질문의 맥락에서 실제로 말이 되는지를 확인합니다. 이는 번역가가 두 사실 사이의 관계가 논리적인지 확인하는 것과 같습니다.
눈 3: "지도" 판독기 (KG 구조/Structure)
이 부분이 가장 중요합니다. 서류함은 단순한 목록이 아니라 연결된 웹입니다. LUCID는 이 연결의 형태를 확인합니다.
- 비유: 만약 사실들이 거미줄처럼 연결되어 있다면, LUCID는 비서가 거미줄을 제대로 따라가고 있는지 확인합니다. 만약 비서가 거미줄의 패턴을 깨뜨리는 결론으로 건너뛴다면, LUCID는 즉시 이를 포착합니다.

3. 학습 방법 (훈련)

LUCID는 단순히 추측하는 것이 아니라, **그래프 신경망(Graph Neural Network, GNN)**을 통해 학습되었습니다.

이것은 마치 수천 건의 정답 사례와 수천 건의 오답 사례를 연구한 탐정과 같습니다.
이 탐정은 환각의 특정한 "패턴"을 학습했습니다: 레이저 포인터가 잘못된 폴로더 위에 있고, 의미가 약간 어긋나며, 사실의 웹이 깨졌을 때 환각이 발생한다는 것을 말이죠.
일단 훈련되면, LUCID는 새로운 답변을 보고 "이것이 환각일 확률이 80%입니다"라고 말할 수 있습니다.

4. 결과: 보안 요원이 성공하다

저자들은 9개의 데이터셋(다양한 종류의 서류함과 질문)을 사용하여 15개의 다른 보안 요원(기존 방법들)과 LUCID를 비교 테스트했습니다.

성적: LUCID는 매번 승리하며 모든 다른 방법들을 앞질렀습니다. LUCID는 "딴생각"을 잡아내는 데 있어 가장 정확했습니다.
실질적인 이득: 논문은 LUCID를 사용하여 비용을 절감하는 영리한 트릭을 보여줍니다.
- 저렴하고 빠른 비서(Qwen2.5-7B)와 비싸고 매우 똑똑한 비서(Qwen3-235B)가 있다고 가정해 봅시다.
- 먼저 저렴한 비서가 모든 일을 하게 합니다.
- LUCID가 이 저렴한 비서를 지켜봅니다. 만약 LUCID가 "이 답변은 환각처럼 보입니다!"라고 말하면, 그 특정 질문에 대해서만 비싼 비서에게 보내서 재확인하도록 합니다.
- 결과: 비싼 비서를 모든 작업에 사용하는 것과 거의 동일한 정확도를 얻으면서도, 실제로 점검이 필요한 경우에만 전문가를 호출하기 때문에 비용을 55% 절감할 수 있습니다.

요약

요약하자면, 이 논문은 다음과 같이 말합니다: "LLM은 지식 그래프를 잘 활용하지만, 여로 때씩 거짓말을 합니다. 우리는 LLM이 사실을 어떻게 보는지, 그 사실들이 무엇을 의미하는지, 그리고 그들이 어떻게 연결되어 있는지를 관찰하는 도구인 LUCID를 만들었습니다. 이 세 가지 관점을 결합함으로써, LUCID는 다른 어떤 도구보다 더 잘 거짓말을 잡아내며, 초보자가 실수하기 직전에만 전문가를 불러냄으로써 비용을 절약하는 데에도 도움을 줄 수 있습니다."

기술 요약: LUCID - LLM 기반 지식 그래프 추론을 위한 환각 탐지

1. 문제 정의

지식 그래프(KG)와 통합된 대규모 언어 모델(LLM)은 질의응답(QA) 및 의사결정 지원과 같은 추론 작업을 발전시켜 왔으나, 여전히 환각(Hallucination) 현상에 취약합니다. 관련 KG 트리플(triple)이 검색되어 프롬프트에 포함되더라도, LLM은 검색된 증거와 모순되는 사실적으로 틀린 응답을 생성할 수 있습니다.

기존의 환각 탐지 방법들은 이 특정 영역에서 상당한 한계에 직면해 있습니다:

일반적인 방법들 (예: EigenScore, Perplexity)은 LLM의 내부 상태에 집중하지만 외부 KG 컨텍스트를 무시합니다.
RAG 특화 방법들 (예: RAGAs, Trulens)은 응답과 검색된 텍스트 간의 일관성을 검증하지만, KG 고유의 구조적 정보를 간과합니다.
공백: 기존의 어떤 방법도 LLM의 내부 어텐션(attention), KG의 의미론(semantics), 그리고 KG의 구조적 토폴로지(topology)를 결형하여 LLM-KG 추론 프레임워크에서의 환각을 공동으로 활용하지 못합니다.

저자들은 세 가지 데이터셋(GrailQA, WebQSP, QALD-10)에 대해 세 가지 프레임워크(Readi, ToG, StructGPT)의 응답을 수동으로 주석 처리하여 이 문제를 정량화했으며, 그 결과 평균 환각률이 **29.65%**임을 밝혀냈습니다.

2. 방법론: LUCID

본 논문은 이 시나리오를 위해 특별히 설계된 최초의 방법인 LUCID(halLUcidation deteCtIon method for LLM-based knowleDge graph reasoning)를 제안합니다. LUCID는 세 가지 서로 다른 정보원을 그래프 신경망(GNN)에 융합하여 환각 확률을 예측함으로써 작동합니다.

2.1 특징 추출 (Feature Extraction)

이 방법은 LLM과 검색된 KG 서브그래프( $G = (V, E)$ ) 사이의 상호작용을 세 단계로 처리합니다:

LLM 내부 상태 정보 (어텐션 점수):
- 모델은 응답 생성 과정 중 LLM의 다층, 다중 헤드 아키텍처로부터 어텐션 점수를 추출합니다.
- 각 응답 토큰에 대해 KG의 노드(엔티티) 및 엣지(관계)에 해당하는 모든 토큰에 대한 평균 어텐션 점수를 계산합니다.
- 이들은 모든 레이어와 헤드에 걸쳐 두 개의 평균 어텐션 행렬인 $M_e$ (노드용)와 $M_r$ (엣지용)로 집계됩니다.
KG 의미론적 정보:
- 작업 관련 엣지와 무관한 엣지를 구분하기 위해, 방법론은 **질의(query)**와 KG 내의 관계(relations, 엣지) 사이의 의미적 유사도를 계산합니다.
- 사전 학습된 언어 모델(all-MiniLM-L6-v2)을 사용하여 질의와 관계에 대한 임베딩을 생성합니다.
- 코사인 유사도 점수 $s(r, Q)$ 가 계산됩니다. 참고: 엔티티의 표면 형태는 종종 모호하므로, 의미적 관련성은 엔티티가 아닌 관계로 계산됩니다.
특징 구성 (Feature Construction):
- 노드 특징 ( $x_e$ ): 노드 어텐션 행렬 $M_e$ 를 평탄화(flattening)하여 형성됩니다.
- 엣지 특징 ( $x_r$ ): 평탄화된 엣지 어텐션 행렬 $M_r$ 과 의미적 유사도 점수 $s(r, Q)$ 를 결합하여 형성됩니다.

2.2 탐지 모델 (GNN)

구축된 노드 및 엣지 특징을 갖춘 풍부한 서브그래프가 **엣지 특징이 포함된 그래프 등형 네트워크(GINE, Graph Isomorphism Network with Edge features)**에 입력됩니다.
GINE는 표준 GIN 대신 선택되었는데, 이는 메시 전달 메커니즘에 엣지 특징을 명시적으로 포함하여 KG의 풍부한 구조적 및 의미적 속성을 활용할 수 있기 때문입니다.
GNN은 $K$ 개의 메시 전달 레이어를 통해 그래프 정보를 집계합니다. 그래프 수준의 표현은 노드 특징을 합산하여 얻으며, 이는 분류기(MLP + Sigmoid)를 통과하여 환각 확률을 출력합니다.
탐지 임계값은 ROC 곡선에서 민감도(sensitivity)와 특이도(specificity)의 기하 평균을 최대화하는 방식으로 결정됩니다.

3. 주요 기여

문제 식별 및 벤치마킹: 저자들은 LLM 기반 KG 추론 프레임워크에서 환각을 체계적으로 식별하고 정량화한 최초의 연구자들입니다. 이들은 세 가지 프레임워크와 세 가지 QA 데이터셋에 걸쳐 수동으로 주석 처리된 벤치마크 데이터셋을 구축하여 29.65%의 기준 환각률을 설정했습니다.
새로운 방법론 (LUCID): 이들은 다음을 독특하게 통합하는 탐지 프레임워크인 LUCID를 제안합니다:
- LLM 내부 상태 (어텐션 메커니즘).
- KG 의미론적 정보 (관계-질의 유사성).
- KG 구조적 정보 (그래프 토폴로지).
최첨단 성능 (SOTA): 광범ale한 실험을 통해 LUCID가 테스트된 모든 프레임워크와 데이터셋에서 15개의 베이스라인(일반적인 탐지 방법 및 RAG 특화 도구 포함)을 능가함을 입증했습니다.
실용적 유용성: 본 논문은 LUCID의 환각 확률이 QA 전략을 개선하는 데 사용될 수 있으며, 높은 정확도를 유지하면서 추론 비용을 크게 줄일 수 있음을 보여줍니다.

4. 실험 결과

Readi, ToG, StructGPT의 세 가지 추론 프레임워크를 사용하여 GrailQA, WebQSP, QALD-10에서 실험이 수행되었습니다.

성능: LUCID는 모든 데이터셋에서 SOTA 성능을 달성했습니다.
- 평균적으로, LUCID는 평균 지표(ACC, AUC, PCC의 AVG) 측면에서 가장 우수한 베이스라인인 SelfCheckGPT보다 6.76%, REDEEP(chunk)보다 5.48% 더 높은 성능을 보였습니다.
- 특히 Readi 프레임워크에서 가장 유의미한 이득(+2.81% 평균 이득)을 보였는데, 이는 Readi의 밀집된 KG 서브그래프가 LUCID의 메시 전달 메커니즘에 더 적합하기 때문입니다.
- WebQSP에서 LUCID는 +2.57%의 평균 이득을 기록하며, 환각이 주로 잘못된 관계 선택에서 발생하는 관계 중심적 질문을 효과적으로 처리했습니다.
비용 효율적 적용: Qwen2.5-7B가 초기 답변을 생성하고, LUCID가 환각 확률이 높은 항목을 표시하여 더 큰 모델(Qwen3-235B)이 재생성하도록 하는 "혼합(Mixed)" 전략이 테스트되었습니다.
- 이 접근 방식은 모든 쿼리에 대해 대형 모델을 사용하는 것과 비교하여 정확도 차이가 1.18% 이내로, 대형 모델을 사용하는 것과 유사한 정확도를 달-성했습니다.
- 대형 모델을 독점적으로 사용할 때보다 평균 **55.4%**의 비용을 절감했습니다.
절제 연구 (Ablation Studies):
- 특징 (Features): 의미적 유사성을 제거하거나 어텐션 행렬을 무작위/숨겨진 레이어 점수로 교체했을 때 성능이 크게 저하되어, 어텐션과 의미적 신호 모두의 필요성을 확인했습니다.
- 모델 아키텍처: GINE가 GCN, GAT, MLP보다 우수한 성능을 보여, 엣지 특징과 그래프 토폴로지를 명시적으로 모델링하는 것의 중요성을 입증했습니다.
- 하이퍼파라미터: 2개의 GINE 레이어, 512개의 숨겨진 채널, $1 \times 10^{-3}$ 의 학습률에서 최적의 성능을 달성했습니다.

5. 의의 및 주장

본 논문은 LUCID가 LLM 기반 KG 추론의 신뢰성에 있는 결정적인 공백을 해결한다고 주장합니다. LLM의 어텐션과 KG 사이의 구조적 및 의미적 정렬을 분석함으로써 표면적인 일관성 체크를 넘어, LUCID는 오정보를 탐지하는 더 강력한 메커니즘을 제공합니다.

저자들은 LUCID를 단순한 탐지 도구가 아니라, 다운스트림 애플리케이션을 개선하기 위한 기초 구성 요소로 포지셔닝합니다. 환각을 필터링하는 능력은 다음과 같은 것을 가능하게 합니다:

더 신뢰할 수 있는 의사결정 지원 및 자동화된 지식 발견.
비용 효율적인 배포 전략 (선택적 정교화를 통한 소형 모델 사용).
LLM-KG 통합의 향후 개선을 위한 필수적인 기반.

연구는 결론적으로 LUCID가 효과적이긴 하지만, 향후 연구에서는 더 나은 해석 가능성을 위한 미세한 환각 귀속(attribution)과 다국어 및 교차 도메인 환경으로의 확장에 집중할 것이라고 언급하며 마무리합니다.

Detecting Hallucinations for Large Language Model-based Knowledge Graph Reasoning