The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎭 인공지능의 '망상' (Hallucination) 이란 무엇일까요?

인공지능이 아주 유창하고 자신감 있게 말하지만, 사실은 완전히 엉뚱한 거짓말을 하는 현상을 **'환각 (Hallucination)'**이라고 부릅니다. 마치 정신과에서 환자가 실제로 없는 것을 보고 느끼는 것과 비슷하게, AI 는 없는 사실을 있는 것처럼 아주 자연스럽게 만들어냅니다.

지금까지 AI 를 평가할 때는 주로 **"정답률"**이나 "속도" 같은 숫자만 보았습니다. 하지만 AI 가 얼마나 사람을 속일 수 있는지, 사용자가 얼마나 신뢰할 수 있는지는 숫자로만 알기 어렵습니다.

📏 새로운 도구: SHS (시스템 환각 척도)

이 논문은 **"AI 의 답변을 믿어도 될까?"**를 사람이 직접 체크할 수 있는 간단한 체크리스트를 만들었습니다. 이를 SHS라고 부릅니다.

1. 비유: AI 식당의 '식중독 검사표'

기존의 AI 평가는 마치 **"요리사가 칼질 속도가 얼마나 빠른가?"**만 재는 것과 같습니다. 하지만 SHS 는 **"이 음식에 독이 섞여 있지는 않은가?"**를 먹는 사람이 직접 체크하는 식중독 검사표와 같습니다.

기존 방식: 기계가 자동으로 "이 문장은 90% 정확합니다"라고 계산. (하지만 그 10% 의 오류가 치명적일 수 있음)
SHS 방식: 사람이 직접 "이 답변은 사실일까? 출처는 확실한가? 논리가 통하는가?"를 5 단계로 점수 매김.

2. SHS 가 보는 5 가지 핵심 요소 (체크리스트 내용)

이 체크리스트는 총 10 개의 질문으로 이루어져 있으며, 5 가지 관점을 봅니다. 마치 5 가지 감각으로 AI 를 점검하는 것과 같습니다.

사실성 (Fact): "이게 진짜 사실인가요, 아니면 AI 가 지어낸 이야기인가요?"
출처 신뢰도 (Source): "이 정보가 어디서 왔는지 알 수 있나요, 아니면 AI 가 임의로 만들어낸 출처인가요?"
논리성 (Logic): "말이 앞뒤가 맞나요, 아니면 갑자기 딴소리를 하나요?"
속임수 (Deception): "거짓말을 너무 자신 있게 해서 속기 쉬운가요?"
지시 반응 (Responsiveness): "내가 "아니야, 다시 확인해 줘"라고 하면 고쳐주나요, 아니면 고집을 부리며 거짓말을 계속 하나요?"

🧪 실험 결과: 210 명이 직접 써봤어요

저자들은 이 체크리스트를 실제 사람 210 명에게 사용하게 했습니다. 결과는 매우 훌륭했습니다.

이해하기 쉬움: "질문이 너무 어렵지 않았어요"라고 87% 가 답했습니다.
일관성: 사람들이 비슷한 질문에 비슷한 반응을 보여, 도구가 믿을 만하다는 것을 증명했습니다.
빠름: AI 와 대화한 후 이 체크리스트를 채우는 데 약 4 분밖에 걸리지 않았습니다.

🆚 기존 도구들과의 비교

이 논문은 SHS 를 두 가지 유명한 도구와 비교했습니다.

SUS (시스템 사용성 척도): "이 앱이 쓰기 편한가?"를 묻는 도구.
SCS (시스템 인과성 척도): "AI 가 왜 이런 결론을 내렸는지 이해가 가는가?"를 묻는 도구.
SHS (시스템 환각 척도): **"이 AI 가 거짓말을 하고 있지는 않은가?"**를 묻는 도구.

결론: AI 를 완전히 평가하려면 이 세 가지 (편리함, 이해 가능성, 진실성) 를 모두 봐야 합니다. SHS 는 그중에서도 **'진실성'**에 특화된 새로운 도구입니다.

💡 왜 이 도구가 중요할까요?

지금까지 AI 개발자들은 "정답률 99%"를 자랑했지만, 그 1% 의 오류가 의료나 법률 같은 중요한 분야에서 치명적인 실수를 부를 수 있습니다. SHS 는 자동화된 기계 검사가 놓칠 수 있는 **"사람이 느끼는 불신"**을 잡아냅니다.

한 줄 요약:

"AI 가 유창하게 거짓말을 할 때, 우리가 그걸 눈치채고 점수를 매겨서 AI 를 더 믿을 수 있게 만드는 '인간용 거짓말 탐지기'를 만들었습니다."

이 도구는 앞으로 AI 가 우리 삶에 더 깊게 들어갈 때, AI 가 얼마나 신뢰할 수 있는지 사람의 눈과 경험으로 꾸준히 점검하는 나침반이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대형 언어 모델 (LLM) 의 할루시네이션 문제: LLM 은 자연어 처리 분야에서 뛰어난 성능을 보이지만, 사실과 다른 정보, 모순된 내용, 또는 완전히 조작된 내용을 유창하게 생성하는 '할루시네이션 (Hallucination)' 현상이 발생하여 신뢰성을 저해하고 있습니다.
기존 평가 방법의 한계:
- 자동화 지표의 부족: BLEU, ROUGE 와 같은 기존 자동화 지표나 TruthfulQA 와 같은 벤치마크는 주로 정확도나 사실성 (Factuality) 에 초점을 맞추고 있으며, 할루시네이션의 다양한 양상 (유도성, 논리적 비일관성, 사용자 지시 무시 등) 을 포착하기 어렵습니다.
- 사용자 관점의 부재: 대부분의 평가는 기술적 성능이나 전문가의 판단에 의존하며, 실제 사용자가 상호작용 과정에서 느끼는 신뢰도, 혼란, 또는 오류 인식과 같은 '사용자 중심 (Human-Centered)' 경험을 체계적으로 측정하는 도구가 부족합니다.
- 정의의 모호성: 할루시네이션은 정신의학 용어에서 차용되었으나, AI 평가 맥락에서는 명확하게 정의되거나 운영화 (Operationalized) 된 표준이 부재합니다.

2. 제안된 방법론: 시스템 할루시네이션 척도 (SHS)

저자들은 기존 시스템 사용성 척도 (SUS) 와 시스템 인과성 척도 (SCS) 에서 영감을 받아, **시스템 할루시네이션 척도 (SHS)**를 개발했습니다. 이는 자동 탐지 도구가 아닌, 사용자 관점에서의 할루시네이션 행동을 평가하기 위한 경량화된 인간 중심 측정 도구입니다.

구조 및 구성:
- 10 개의 항목: 5 가지 개념적 차원 (Dimension) 으로 구성되며, 각 차원은 1 개의 긍정적 문항과 1 개의 부정적 문항으로 쌍을 이룹니다.
- 5 가지 차원:
  1. 사실적 정확성 (Factual Accuracy): 정보의 사실성과 조작 여부.
  2. 소스 신뢰성 (Source Reliability): 정보 출처의 추적 가능성과 검증 용이성.
  3. 논리적 일관성 (Logical Coherence): 추론 과정의 논리적 구조와 사실 기반 여부.
  4. 기만적 표현 (Deceptiveness of Presentation): 오류가 얼마나 자신감 있게 오해의 소지가 있게 제시되는지.
  5. 사용자 지시 반응성 (Responsiveness to Guidance): 사용자의 수정 요청이나 지시에 따라 모델이 답변을 개선하는지 여부.
- 평가 방식: 5 점 리커트 척도 (5-point Likert scale) 를 사용하며, 응답은 $[-2, +2]$ 범위로 인코딩됩니다.
점수 산정 알고리즘:
- 각 차원의 점수는 긍정 문항 ( $p_i$ ) 과 부정 문항 ( $n_i$ ) 의 차이를 정규화하여 계산합니다: $s_i = \frac{p_i - n_i}{4}$ .
- 최종 SHS 점수는 5 개 차원 점수의 평균으로, 범위는 $[-1, +1]$ 입니다.
  - $+1$ : 할루시네이션 위험 낮음 (신뢰도 높음).
  - $-1$ : 할루시네이션 위험 높음 (신뢰도 낮음).
- 필요시 $0 \sim 100 $점으로 선형 변환 가능 ($ SHS_{100} = 50 \times (SHS + 1)$).
- 일관성 진단: 긍정/부정 문항의 합 ( $c_i$ ) 을 통해 응답자의 혼란이나 모호한 판단을 진단할 수 있습니다.

3. 주요 기여 (Key Contributions)

새로운 평가 프레임워크 제시: 할루시네이션을 단순한 '사실 오류'가 아닌, 사실성, 출처, 논리성, 기만성, 반응성 등 5 가지 다차원적 관점에서 평가할 수 있는 표준화된 도구를 최초로 제안했습니다.
사용자 중심의 경량 도구: 복잡한 자동화 파이프라인 없이도 전문가 및 비전문가가 5 분 이내에 적용 가능한 실용적인 도구로, SUS 와 SCS 와 유사한 심리측정학적 구조를 가집니다.
내부 일관성 진단 기능: 쌍을 이룬 문항 구조를 통해 응답자의 일관성을 자동으로 진단하여, 데이터 품질 관리 (Quality Control) 가 가능합니다.
개방형 리소스: 척도 항목, 점수 산정 로직, 파이썬 참조 구현 코드, 그리고 평가 자료를 오픈 소스로 공개하여 재현성과 채택을 장려합니다.

4. 실증 평가 결과 (Results)

실험 설계: 오스트리아 그라츠 의과대학 등에서 210 명의 참가자를 대상으로 한 실제 상호작용 시나리오 (명확한 질문과 모호한 지시 포함) 를 통해 SHS 를 검증했습니다.
심리측정학적 타당성:
- 내부 일관성 (Internal Consistency): 크론바흐 알파 (Cronbach's $\alpha$ ) 값이 0.87로 나타나 높은 신뢰도를 보였습니다.
- 구성 타당성 (Construct Validity): 5 개 차원 간의 상관관계가 유의미하게 나타났으며 ( $p < 0.001$ , $r = 0.42 \sim 0.72$ ), 각 차원이 서로 중복되지 않으면서도 연관된 구성 요소를 측정함을 입증했습니다.
- 쌍별 일관성: 긍정/부정 문항 간의 상관관계도 강하게 나타났습니다 ( $r = 0.65 \sim 0.79$ ).
사용성 및 명확성:
- 참가자의 **87.2%**가 질문의 명확성을 인정했으며, **93.6%**가 응답 옵션의 적절성을 평가했습니다.
- 평균 완료 시간은 4.2 분으로, 평가 프로세스를 방해하지 않는 경량 도구임을 확인했습니다.
- 응답 분포 분석을 통해 참가자가 무작위 응답이 아닌, 실제 평가에 기반하여 리커트 척도의 전 범위를 활용했음을 확인했습니다.

5. 의의 및 결론 (Significance)

기술적 평가와 사용자 경험의 간극 해소: 기존 벤치마크가 놓치고 있는 '사용자가 느끼는 신뢰도'와 '상호작용 중 발생하는 오류'를 체계적으로 측정할 수 있는 첫 번째 도구입니다.
실무 적용 가능성: LLM 의 배포 전/후 모니터링, 반복적인 시스템 개발 (Iterative Development), 그리고 고위험 분야 (의료, 법률 등) 에서의 책임 있는 AI 도입을 위한 필수적인 진단 도구로 활용 가능합니다.
SUS/SCS 와의 보완적 관계: SHS 는 사용성 (SUS) 과 설명 가능성 (SCS) 을 측정하는 기존 도구들과 함께 사용될 때, LLM 시스템에 대한 포괄적인 인간 중심 평가를 가능하게 합니다.
향후 전망: SHS 는 다양한 언어와 도메인에서의 검증을 거쳐, 자동화된 탐지 방법과 결합된 하이브리드 평가 파이프라인의 핵심 요소로 발전할 것으로 기대됩니다.

이 논문은 LLM 의 할루시네이션 문제를 해결하기 위해 단순한 기술적 지표가 아닌, 인간의 인식과 상호작용을 기반으로 한 체계적이고 실용적인 평가 체계의 필요성을 강조하며, 이를 위한 구체적인 도구 (SHS) 를 제시했다는 점에서 중요한 의의를 가집니다.

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

🎭 인공지능의 '망상' (Hallucination) 이란 무엇일까요?

📏 새로운 도구: SHS (시스템 환각 척도)

1. 비유: AI 식당의 '식중독 검사표'

2. SHS 가 보는 5 가지 핵심 요소 (체크리스트 내용)

🧪 실험 결과: 210 명이 직접 써봤어요

🆚 기존 도구들과의 비교

💡 왜 이 도구가 중요할까요?

1. 연구 배경 및 문제 제기 (Problem)

2. 제안된 방법론: 시스템 할루시네이션 척도 (SHS)

3. 주요 기여 (Key Contributions)

4. 실증 평가 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models