The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

이 논문은 대규모 언어 모델의 환각 관련 행동을 사용자 관점에서 신속하고 해석 가능하게 평가하기 위해 기존 심리측정 도구에 영감을 받아 개발된 경량화된 인간 중심 측정 도구인 '시스템 환각 척도 (SHS)'를 제안하고, 210 명을 대상으로 한 실증 평가를 통해 높은 신뢰도와 타당성을 입증했습니다.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 인공지능의 '망상' (Hallucination) 이란 무엇일까요?

인공지능이 아주 유창하고 자신감 있게 말하지만, 사실은 완전히 엉뚱한 거짓말을 하는 현상을 **'환각 (Hallucination)'**이라고 부릅니다. 마치 정신과에서 환자가 실제로 없는 것을 보고 느끼는 것과 비슷하게, AI 는 없는 사실을 있는 것처럼 아주 자연스럽게 만들어냅니다.

지금까지 AI 를 평가할 때는 주로 **"정답률"**이나 "속도" 같은 숫자만 보았습니다. 하지만 AI 가 얼마나 사람을 속일 수 있는지, 사용자가 얼마나 신뢰할 수 있는지는 숫자로만 알기 어렵습니다.

📏 새로운 도구: SHS (시스템 환각 척도)

이 논문은 **"AI 의 답변을 믿어도 될까?"**를 사람이 직접 체크할 수 있는 간단한 체크리스트를 만들었습니다. 이를 SHS라고 부릅니다.

1. 비유: AI 식당의 '식중독 검사표'

기존의 AI 평가는 마치 **"요리사가 칼질 속도가 얼마나 빠른가?"**만 재는 것과 같습니다. 하지만 SHS 는 **"이 음식에 독이 섞여 있지는 않은가?"**를 먹는 사람이 직접 체크하는 식중독 검사표와 같습니다.

  • 기존 방식: 기계가 자동으로 "이 문장은 90% 정확합니다"라고 계산. (하지만 그 10% 의 오류가 치명적일 수 있음)
  • SHS 방식: 사람이 직접 "이 답변은 사실일까? 출처는 확실한가? 논리가 통하는가?"를 5 단계로 점수 매김.

2. SHS 가 보는 5 가지 핵심 요소 (체크리스트 내용)

이 체크리스트는 총 10 개의 질문으로 이루어져 있으며, 5 가지 관점을 봅니다. 마치 5 가지 감각으로 AI 를 점검하는 것과 같습니다.

  1. 사실성 (Fact): "이게 진짜 사실인가요, 아니면 AI 가 지어낸 이야기인가요?"
  2. 출처 신뢰도 (Source): "이 정보가 어디서 왔는지 알 수 있나요, 아니면 AI 가 임의로 만들어낸 출처인가요?"
  3. 논리성 (Logic): "말이 앞뒤가 맞나요, 아니면 갑자기 딴소리를 하나요?"
  4. 속임수 (Deception): "거짓말을 너무 자신 있게 해서 속기 쉬운가요?"
  5. 지시 반응 (Responsiveness): "내가 "아니야, 다시 확인해 줘"라고 하면 고쳐주나요, 아니면 고집을 부리며 거짓말을 계속 하나요?"

🧪 실험 결과: 210 명이 직접 써봤어요

저자들은 이 체크리스트를 실제 사람 210 명에게 사용하게 했습니다. 결과는 매우 훌륭했습니다.

  • 이해하기 쉬움: "질문이 너무 어렵지 않았어요"라고 87% 가 답했습니다.
  • 일관성: 사람들이 비슷한 질문에 비슷한 반응을 보여, 도구가 믿을 만하다는 것을 증명했습니다.
  • 빠름: AI 와 대화한 후 이 체크리스트를 채우는 데 약 4 분밖에 걸리지 않았습니다.

🆚 기존 도구들과의 비교

이 논문은 SHS 를 두 가지 유명한 도구와 비교했습니다.

  • SUS (시스템 사용성 척도): "이 앱이 쓰기 편한가?"를 묻는 도구.
  • SCS (시스템 인과성 척도): "AI 가 왜 이런 결론을 내렸는지 이해가 가는가?"를 묻는 도구.
  • SHS (시스템 환각 척도): **"이 AI 가 거짓말을 하고 있지는 않은가?"**를 묻는 도구.

결론: AI 를 완전히 평가하려면 이 세 가지 (편리함, 이해 가능성, 진실성) 를 모두 봐야 합니다. SHS 는 그중에서도 **'진실성'**에 특화된 새로운 도구입니다.

💡 왜 이 도구가 중요할까요?

지금까지 AI 개발자들은 "정답률 99%"를 자랑했지만, 그 1% 의 오류가 의료나 법률 같은 중요한 분야에서 치명적인 실수를 부를 수 있습니다. SHS 는 자동화된 기계 검사가 놓칠 수 있는 **"사람이 느끼는 불신"**을 잡아냅니다.

한 줄 요약:

"AI 가 유창하게 거짓말을 할 때, 우리가 그걸 눈치채고 점수를 매겨서 AI 를 더 믿을 수 있게 만드는 '인간용 거짓말 탐지기'를 만들었습니다."

이 도구는 앞으로 AI 가 우리 삶에 더 깊게 들어갈 때, AI 가 얼마나 신뢰할 수 있는지 사람의 눈과 경험으로 꾸준히 점검하는 나침반이 될 것입니다.