DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations

이 논문은 샘플 간 일관성과 토큰 수준의 신뢰도에 따른 탐지 가능성 시그니처를 바탕으로 LLM 환각을 분류하는 새로운 2x2 분류 체계인 DECK을 소개하며, 특정 오류 유형(Drift, Entrenched, Confabulation, Knotted)은 별도의 탐지 방법을 필요로 한다는 점과 지식 공백 입력에 대한 확신 있고 반복적인 조작이 현재의 출력 수준 불확실성 정량화 접근 방식으로는 탐지 불가능한 보편적 사각지대를 노출한다는 점을 밝히고 있다.

원저자: Mohit Singh Chauhan

게시일 2026-06-02✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Mohit Singh Chauhan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

매우 똑똑하고 자신감 넘치는 로봇이 질문에 답한다고 상상해 보세요. 때때로 이 로봇은 지어낸 이야기를 합니다. 우리는 이러한 실수를 "환각(hallucinations)"이라고 부릅니다.

오랫동안 연구자들은 이 실수들을 무엇이 잘못되었는지(예: "사실 관계를 틀렸다" 또는 "추론이 부족했다")에 따라 분류하려고 노력했습니다. 하지만 이 논문의 저자인 모히트 싱 카우차완(Mohit Chauhan)은 이것이 자동차 사고를 "나무에 들이받음" 대 "벽에 들이받음"으로 분류하는 것과 같다고 말합니다. 그것은 무엇이 일어났는지는 알려주지만, 사고가 나기 전에 어떻게 운전자를 잡아낼지는 알려주지 않습니다.

이 논문은 DECK이라는 새로운 방식의 실수 분류법을 소개합니다. 오류의 내용을 보는 대신, 오류가 남기는 *신호(signal)*를 봅니다. 이 방식은 "어떤 유형의 탐지기가 이 오류를 찾아냈을 것인가?"라고 묻습니다.

두 가지 탐지기 (두 축)

이 시스템을 구축하기 위해 저자들은 로봇을 관찰하는 두 가지 간단한 "센서"를 사용합니다.

  1. 일관성 센서 (The "Repeat" Test - 반복 테스트): 로봇에게 같은 질문을 10번 했을 때, 매번 같은 답을 내놓습니까?
    • 높은 일관성: 항상 같은 답을 반복합니다.
    • 낮은 일관성: 매번 다른 답을 내놓습니다.
  2. 확신도 센서 (The "Sure-Thing" Test - 확신 테스트): 로봇이 얼마나 확신에 차 있습니까? "100% 확실하다"고 말합니까, 아니면 주저하는 기색이 있습니까?
    • 높은 확신도: "저는 100% 확신합니다."
    • 낮은 확신도: "제 생각에는 아마도..."

DECK 분류 체계 (네 개의 상자)

이 두 센서를 교차하여 저자들은 네 가지 유형의 실수가 담긴 2x2 그리드를 만듭니다. 그들은 이들에게 매력적인 이름을 붙여주었습니다.

1. 드리프트 (Drift - "혼란스러운 표류자")

  • 겉모습: 로봇이 확신에 차 있지만, 물을 때마다 다른 오답을 내놓습니다.
  • 비유: 아주 크고 당당한 목소리로 말하지만, 당신이 "박물관이 어디인가요?"라고 물을 때마다 매번 다른 방향을 가리키는 가이드와 같습니다. 그들은 자신만만하지만, 길을 잃고 표류하고 있습니다.
  • 누가 잡아내는가? 블랙박스 탐지기(답변들이 서로 일치하는지 확인하는 도구)가 이를 잡아낼 수 있습니다. 왜냐하면 답변들이 서로 일치하지 않기 때문입니다.

2. 엔트렌치드 (Entrenched - "고집 센 노새")

  • 겉모습: 로봇이 확신에 차 있으며, 매번 정확히 똑같은 오답을 내놓습니다.
  • 비유: 이는 틀린 정답지를 통째로 외워버린 학생과 같습니다. "2+2는 무엇인가요?"라고 물으면, 몇 번을 물어도 자신 있게 "5"라고 답할 것입니다. 그들은 오개념에 단단히 박혀(entrenched) 있습니다.
  • 누가 잡아내는가? 이것이 가장 어렵습니다. 일관성 탐지기는 답변이 일정하기 때문에 이를 옳다고 판단합니다! 오직 판사(Judge)(사실을 알고 있는 제2의 독립된 AI)만이 이를 잡아낼 수 있습니다.

3. 컨파뷸레이션 (Confabulation - "망설이는 날조가")

  • 겉모s: 로봇이 불확실해하며, 매번 다른 오답을 내놓습니다.
  • 비유: 로봇이 "잘 모르겠지만, 제 추측으로는... 아, 사실은 아마 이럴지도 몰라요"라고 말하는 것과 같습니다. 무언가를 지어내고 있지만, 스스로도 추측하고 있다는 것을 알고 있습니다.
  • 누가 잡아내는가? 모두가 잡아냅니다. 확신도가 낮고 일관성도 없기 때문에, 모든 탐지기가 이를 "위험함"으로 표시합니다.

4. 너티드 (Knotted - "엉킨 덤불")

  • 겉모습: 로봇이 불확실하지만(낮은 확신도), 매번 정확히 똑같은 오답을 내놓습니다.
  • 비유: 틀리는 것을 두려워하는 로봇이 "확실하진 않지만, 아마 X인 것 같아요"라고 말하며, 매번 "아마 X"라고 반복하는 상황과 같습니다. 안전하고 반복적인, 그러나 틀린 패턴 속에 엉켜(knotted) 있습니다.
  • 누가 잡아내는가? 화이트박스 탐지기(로봇의 내부 수학적 계산을 들여다보는 도구)가 이를 잡아낼 수 있습니다. 로봇의 내부 계산 결과가 실제로는 확신이 없음을 보여주기 때문입니다.

거대한 발견: "보편적 사각지대 (Universal Blind Spot)"

연구진은 모든 탐지기가 동시에 실패하는 무서운 상황을 발견했습니다.

그들은 아무도 답할 수 없는 질문(예: "아직 존재하지 않는 국가의 수도는 어디인가요?")에 대해 로봇을 테스트했습니다.

  • 로봇은 "모릅니다"라고 말하지 않았습니다.
  • 대신, 자신 있게 가짜 답을 만들어냈고 매번 그것을 반복했습니다.

이것은 완벽한 함정을 만들었습니다:

  • 일관성 센서는 답변이 반복되는 것을 보고 "좋아, 일관성이 있군!"이라고 생각했습니다.
  • 확신도 센서는 로봇이 확신에 차 있는 것을 보고 "좋아, 확신도가 높군!"이라고 생각했습니다.
  • 판사 역시 실패했습니다. 판사 또한 존재하지 않는 국가에 대해 알지 못했기 때문입니다.

저자들은 이를 **"보편적 사각지대"**라고 부릅니다. 로봇이 자신이 전혀 모르는 것에 대해 자신 있게 거짓말을 반복할 때, 현재의 어떤 탐지기로도 이를 잡아낼 수 없습니다.

해결책

이 논문은 더 나은 탐지기를 만들어 특정 거짓말을 잡으려 하기보다, **"거절 봉투(Refusal Envelope)"**를 구축해야 한다고 제안합니다. 이는 클럽의 문지기와 같습니다. 질문이 로봇이 알 수 없는 영역(지식의 공백)에 관한 것이라면, 문지기는 로봇이 무언가를 지어내기 전에 미리 개입하여 "답변할 수 없습니다"라고 말하며 로봇의 답변을 차단해야 합니다.

요약

이 논문은 단순히 "AI가 실수를 한다"고 말하는 것이 아닙니다. "AI는 네 가지 특정한 패턴으로 실수를 한다. 어떤 패턴은 잡기 쉽고, 어떤 패턴은 어렵다. 그리고 한 가지 특정 패턴(알지 못하는 것에 대해 자신 있게 반복하는 거짓말)은 현재의 도구로는 잡는 것이 불가능하다. 우리는 로봇이 그런 질문에 답하는 것 자체를 막아야 한다"라고 말하고 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →