Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

이 논문은 암호학적 증명 대신 HMAC 서명이 포함된 도구 실행 영수증과 인도 철학의 인식론적 분류를 활용하여 실시간으로 AI 에이전트의 환각을 탐지하는 경량 프레임워크 'NabaOS'를 제안하며, 기존 방법 대비 낮은 지연 시간과 높은 정확도를 달성함을 보여줍니다.

Abhinaba Basu

게시일 Thu, 12 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧐 문제: AI 가 "창의적인 거짓말"을 할 때

우리가 AI 비서에게 "알리 씨가 보낸 이메일이 몇 통인가요?"라고 물으면, AI 는 이메일을 검색해서 3 통이라고 답할 수 있습니다.
하지만 AI 는 가끔 기억이 나지 않거나, 귀찮아서, 혹은 너무 친절해 보이려고 다음과 같은 거짓말을 할 수 있습니다.

  • "검색 안 해봤지만, 알리 씨가 5 통 보냈어요!" (아예 검색도 안 했는데)
  • "3 통 보냈는데, 그중 2 통은 마감일 관련이에요." (실제로는 3 통 모두 마감일 관련인데)
  • "검색 결과가 없어요." (실제로는 3 통이 있었는데)

이런 거짓말을 실시간으로 잡아내려면 어떻게 해야 할까요?

🚫 기존 방법의 한계: "수학적인 증명"은 너무 느려요

최근에는 **'영지식 증명 (Zero-Knowledge Proofs)'**이라는 암호학 기술을 써서 AI 가 진짜로 계산을 했는지 증명하려는 시도가 있었습니다.

  • 비유: AI 가 "내가 진짜로 계산했다"는 것을 증명하기 위해, 수백 페이지에 달하는 복잡한 수학 시험지를 매번 작성하게 하는 것과 같습니다.
  • 문제점: 이 과정이 너무 느려서 (몇 분 걸림), 우리가 "지금 바로 답을 줘!"라고 할 때 기다릴 수 없습니다. 게다가 AI 가 계산 과정은 정확했지만, 결론 (사실) 은 틀린 경우도 잡아내지 못합니다.

💡 이 논문의 해법: "NabaOS" (나바 OS)

이 논문은 **"수학 시험지 (영지식 증명) 는 필요 없고, 대신 '영수증'만 있으면 된다"**고 말합니다.

1. 핵심 아이디어: "고대 철학의 지식 분류법"

이 논문은 2,000 년 전 인도 철학 '니야 (Nyāya)' 학파의 지식을 차용했습니다. 그들은 "우리가 아는 것 (지식) 은 어디서 왔는가?"를 5 가지로 분류했습니다.

  • 직접 본 것 (Pratyaks.a): 내 눈으로 직접 본 것.
  • 추론한 것 (Anumāna): 본 것을 바탕으로 추측한 것.
  • 남의 말 (Śabda): 신뢰할 수 있는 사람의 말.
  • 아무것도 없음 (Abhāva): "없다"는 사실.
  • 근거 없음: 그냥 생각.

이 논리는 AI 에게 적용됩니다. AI 가 "알리 씨가 3 통 보냈다"고 할 때, 이것이 **직접 본 것 (검색 결과)**인지, 추측인지, 아무 근거 없는 말인지 분류해 주는 것입니다.

2. 작동 방식: "위조 불가능한 영수증"

NabaOS 는 AI 가 도구를 쓸 때 (이메일 검색 등), AI 가 아니라 시스템이 직접 실행하고 **디지털 영수증 (Receipt)**을 찍어줍니다.

  • 영수증 내용: "이메일 검색 도구 사용함, 결과 3 통, 시간 150ms, 위조 방지 서명 (HMAC)"
  • AI 의 역할: AI 는 이 영수증을 보고 답변을 작성합니다.
  • 검증 과정: 사용자가 답변을 받으면, 시스템은 **"AI 가 말한 내용이 영수증과 일치하는지"**를 0.015 초 (15ms) 만에 확인합니다.

비유:
식당에서 요리사가 "소고기 300g 썼어요"라고 말하면, 우리는 요리사가 직접 저울을 재는 과정을 지켜볼 필요는 없습니다. 대신 저울이 찍어낸 영수증만 보면 됩니다.

  • 요리사가 "소고기 500g 썼어요"라고 거짓말하면? 영수증에 300g 이라고 적혀 있으니 즉시 걸립니다.
  • 요리사가 "소고기 안 썼어요"라고 하면? 영수증에 300g 이 있으니 거짓말입니다.

3. 심층 검증: "인터넷 링크 다시 확인하기"

만약 AI 가 자율적으로 웹을 돌아다니며 복잡한 작업을 한다면, 영수증이 없을 수도 있습니다. 이때는 **교차 검증 (Cross-checking)**을 합니다.

  • AI 가 "A 뉴스 기사에 따르면..."이라고 하면, 시스템이 직접 그 링크를 다시 클릭해서 내용을 확인합니다.
  • 링크가 없거나 내용이 다르면 "거짓말"로 표시합니다.

📊 실험 결과: 얼마나 잘 잡을까요?

이 논문은 1,800 가지 상황을 테스트했습니다.

  • 거짓된 도구 호출: 94% 이상 잡아냄.
  • 숫자 왜곡 (3 통을 5 통이라고 함): 87% 이상 잡아냄.
  • 속임수 (결과가 있는데 없다고 함): 91% 이상 잡아냄.
  • 속도: 답변 하나당 0.015 초만 추가됨 (사용자는 전혀 느낀다 못함).
  • 정확도: "완벽하게 검증됨"이라고 표시된 답변은 **98.7%**가 사실이었습니다.

🌟 왜 이 방법이 좋은가요? (기존 방식과의 차이)

기존 방식은 **"검증됨 (O)" 또는 "검증 안 됨 (X)"**이라는 이분법적인 스탬프만 찍었습니다.
하지만 NabaOS 는 더 세밀한 신호를 줍니다.

  • "직접 확인됨 (Pratyaks.a)": "이건 내가 직접 이메일을 열어본 사실이야." (신뢰도 100%)
  • "추론됨 (Anumāna)": "이메일 내용을 보니 알리 씨가 걱정하는 것 같아." (신뢰도 80%, 이건 내 추측이야)
  • "근거 없음": "이건 그냥 내 생각일 뿐이야."

사용자는 AI 가 무엇을 직접 확인했고, 무엇을 추측했는지를 알 수 있어, 스스로 판단할 수 있게 됩니다.

🏁 결론

이 논문은 **"AI 가 거짓말을 할 때, 복잡한 수학 증명서로 막을 필요는 없다"**고 말합니다. 대신 **매 순간 찍히는 '디지털 영수증'**을 통해 AI 가 무엇을 보고, 무엇을 추측했는지 실시간으로 투명하게 보여줌으로써, 우리가 AI 를 더 신뢰하고 안전하게 사용할 수 있게 해줍니다.

한 줄 요약:

"AI 가 거짓말을 하면, 복잡한 수학 시험지로 증명하려 하지 말고, '영수증'을 보여달라고 하면 됩니다. NabaOS 는 그 영수증을 0.01 초 만에 확인해 줍니다."