Hallucination as output-boundary misclassification: a composite abstention architecture for language models

이 논문은 언어 모델의 환각 현상을 출력 경계 오분류로 정의하고, 지시 기반 거절과 구조적 기피 게이트를 결합한 복합 아키텍처가 단일 메커니즘보다 환각을 효과적으로 통제하면서도 답변 정확도를 유지함을 보여줍니다.

Angelina Hintsanen

게시일 2026-04-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (LLM) 이 때때로 사실이 아닌 말을 마치 사실인 것처럼 뚝심 있게 말하는 '환각 (Hallucination)' 현상을 어떻게 해결할지 제안합니다.

저자는 이 문제를 단순히 "거짓말을 고치는 것"이 아니라, **"내부에서 만든 상상을 외부의 증거로 잘못 분류하는 오류"**로 봅니다. 이를 해결하기 위해 두 가지 장치를 함께 쓰는 **'복합 방어 시스템'**을 개발했다고 합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🧠 핵심 비유: "지식이 풍부한 하지만 과신하는 요리사"

인공지능을 매우 유창하게 요리하는 요리사라고 상상해 보세요.

  • 문제점: 요리사가 손님이 "이 재료로 어떤 요리를 할 수 있나요?"라고 물었을 때, 냉장고에 재료가 없으면 (증거가 부족할 때), 요리사는 자신의 기억과 상상력만으로 "아, 이거라면 이런 요리를 만들 수 있죠!"라고 아주 자신 있게 말해버립니다. 이것이 바로 '환각'입니다.

이 논문은 이 문제를 해결하기 위해 두 명의 감시관을 배치하는 시스템을 제안합니다.

1. 첫 번째 감시관: "양심 있는 요리사" (Instruction-based Refusal)

  • 역할: 요리사에게 "자네, 냉장고에 재료가 없으면 무조건 '모르겠다'고 말해라"라고 지시를 내리는 것입니다.
  • 장점: 대부분의 경우 잘 작동합니다. 재료가 없으면 요리사가 "모르겠습니다"라고 정직하게 말합니다.
  • 단점 (과도한 조심): 때로는 재료가明明 있는데도, 요리사가 "아, 혹시 이 재료가 안 맞을까?"라고 너무 걱정해서 실제 가능한 요리도 거절해버립니다. (정답을 알고 있는데도 "모르겠다"고 하는 실수)
  • 또 다른 단점: 요리사의 지능이 낮으면 (예: GPT-3.5), "무조건 모르겠다"는 지시를 무시하고 여전히 엉뚱한 요리를 만들어냅니다.

2. 두 번째 감시관: "기계적인 검사관" (Structural Abstention Gate)

  • 역할: 요리사의 말에 귀를 기울이는 게 아니라, 수치로 확인하는 기계입니다.
    • "이 요리법이 3 번 말해봐도 똑같아? (일관성)"
    • "말을 바꿔서 물어봐도 같은 뜻이야? (안정성)"
    • "요리 설명에 냉장고에 있는 재료 이름이 들어갔어? (근거)"
    • 이 세 가지 점수가 낮으면, 요리사가 아무리 "내가 확신해!"라고 외쳐도 기계적으로 입을 막습니다.
  • 장점: 요리사가 지능이 낮거나 지시를 무시하더라도, 기계는 무조건 증거가 없으면 입을 닫게 합니다.
  • 단점 (자신감 있는 거짓말): 만약 요리사가 거짓말을 아주 일관되고 안정적으로 해낸다면 (예: 서로 다른 두 레시피 중 하나를 골라 아주 확신 있게 말함), 기계는 "오, 이 요리사는 일관성이 좋네!"라고 착각해서 거짓 요리를 통과시켜버립니다.

🛡️ 해결책: "두 감시관을 한 팀으로" (Composite Architecture)

이 논문이 발견한 가장 중요한 사실은 **"한 명만 믿으면 실패한다"**는 것입니다.

  • 양심 있는 요리사만 믿으면: 실제 가능한 요리도 거절하거나, 지능이 낮은 요리사는 거짓말을 합니다.
  • 기계 검사관만 믿으면: 요리사가 아주 자신 있게 거짓말을 할 때 (상호 모순된 정보 중 하나를 골라 확신 있게 말할 때) 이를 잡아내지 못합니다.

그래서 두 가지를 합쳤습니다.

"요리사가 '모르겠다'고 하거나, 기계 검사관이 '증거 부족'이라고 판단하면 둘 중 하나라도 걸리면 출입구를 닫는다."

복합 시스템을 적용한 결과:

  • 거짓말 (환각) 비율: 3050% 에서 **04%**까지 급감했습니다.
  • 정답률: 거의 100% 를 유지하면서도, 거짓말을 하지 않았습니다.

📊 실험 결과 요약 (일상 언어로)

  1. 기본 상태 (방어 없음): 요리사는 증거가 없어도 "내 기억으로 알아요"라고 30~50% 확률로 거짓말을 합니다.
  2. 지시만 준 상태: "모르면 말하지 마"라고 했더니, 고급 요리사 (GPT-4) 는 거짓말을 안 했지만, 실제 가능한 요리도 10% 정도 거절했습니다. 반면 하급 요리사 (GPT-3.5) 는 지시를 무시하고 여전히 거짓말을 했습니다.
  3. 기계 검사만 둔 상태: 하급 요리사의 거짓말은 막았지만, 자신감 넘치는 거짓말은 잡아내지 못했습니다.
  4. 두 가지 합친 상태 (최고의 성과):
    • 거짓말은 거의 사라졌습니다 (0~4%).
    • 고급 요리사는 때때로 과하게 조심해서 정답을 거절하는 경향이 있지만, 하급 요리사의 거짓말까지 막아냈습니다.
    • 특히 증거가 전혀 없는 상황에서는 기계 검사관이 "무조건 말하지 마"라는 안전 장치를 제공하여, 어떤 요리사든 거짓말을 못 하게 만들었습니다.

💡 결론: 왜 이 연구가 중요한가?

이 연구는 **"인공지능이 거짓말을 할 때, 단순히 '거짓말을 고치려' 하지 말고, '거짓말을 하기 전에 멈추게 하는 문'을 만들어야 한다"**고 말합니다.

  • 한 가지 방법만으로는 부족합니다. (지시만 주거나, 기계만 믿거나)
  • 서로 다른 약점을 보완해야 합니다. (요리사의 양심 + 기계의 냉정한 검사)
  • 결과: 이 두 가지를 합치면, 인공지능이 "내가 모르는 건 모른다고 말하고, 아는 건 정확히 말하는" 훨씬 안전한 도구가 됩니다.

마치 비행기를 탈 때, 조종사 (요리사) 의 실수를 막기 위해 자동 조종 장치 (기계 검사) 가 함께 작동하는 것과 같은 원리입니다. 둘 다 있어야 가장 안전합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →