Asynchronous Verified Semantic Caching for Tiered LLM Architectures

이 논문은 임계값 기반의 정적 캐싱 정책의 한계를 극복하기 위해, 비동기적으로 LLM 심판기를 활용해 정적 캐시 응답을 검증하고 동적 캐시로 승격시키는 'Krites' 시스템을 제안함으로써, 임계 경로 지연을 유지하면서 정적 캐시 히트율을 최대 3.9 배까지 향상시킨다고 요약할 수 있습니다.

Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri, Tak Chiam, Weihua Zhu

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍽️ 비유: "고급 레스토랑의 메뉴판과 주방"

인공지능이 질문에 답하는 과정을 고급 레스토랑에 비유해 보겠습니다.

  1. LLM (대규모 언어 모델): 거대한 주방입니다. 모든 주문을 직접 요리하면 맛있지만, 시간이 오래 걸리고 비용이 매우 비쌉니다.
  2. 캐싱 (Caching): 미리 만들어 둔 준비된 요리입니다. 손님이 같은 주문을 하면 주방에서 새로 요리할 필요 없이 준비된 요리를 바로 내줄 수 있어 빠르고 저렴합니다.
  3. 계층형 구조 (Tiered Architecture):
    • 정적 캐시 (Static Tier): 주방장이 신중하게 검토하고 맛을 본 '명품 요리'들입니다. 안전하고 품질이 확실하지만, 메뉴판에 올라가 있는 요리만 팔 수 있습니다.
    • 동적 캐시 (Dynamic Tier): 오늘 주문이 들어와서 실시간으로 만든 요리들입니다. 다양하지만, 아직 검증이 덜 된 상태일 수 있습니다.

🚨 문제: "너무 까다로운 메뉴판"

기존 시스템은 "손님의 주문 (질문) 이 메뉴판 (정적 캐시) 에 있는 요리와 95% 이상 비슷하면 바로 내주고, 95% 미만이면 무조건 주방으로 보내라" 라는 규칙을 따릅니다.

  • 문제 상황:
    • 손님 A: "내 개가 꿀을 먹어도 될까?" (메뉴판에 있음)
    • 손님 B: "내 개한테 꿀을 줘도 되나요?" (의미는 똑같은데, 문장 구조가 조금 다름)
    • 결과: 기존 시스템은 두 문장이 95% 미만의 유사도라고 판단하면, 손님 B 의 주문을 거절하고 비싼 주방 (LLM) 에 보내버립니다.
    • 손실: 사실 두 질문은 똑같은 의미인데, 너무 엄격한 규칙 때문에 이미 준비된 맛있는 요리 (정적 캐시) 를 버리고 비싼 주방을 이용하는 셈이 됩니다.

💡 해결책: Krites (크리테스) 의 아이디어

Krites 는 "주문을 바로 거절하지 말고, 뒤에서 한 번 더 확인해 보자" 는 아이디어입니다.

  1. ** critical path (주문 처리 중):** 손님이 주문하면 기존 규칙대로 처리합니다. 95% 이상이면 바로 내주고, 아니면 주방으로 보냅니다. 손님이 기다리는 시간은 그대로입니다.
  2. 회색 지대 (Grey Zone): 만약 "95% 미만이지만, 80% 는 넘는" 애매한 주문이 들어오면?
    • 손님은 기다리지 않고 기존 규칙대로 처리됩니다 (혹시 주방이 바쁘면 대기하거나, 동적 캐시를 이용합니다).
    • 하지만 배경에서 (비동기적으로) "요리 심사 위원 (LLM Judge)"이 조용히 일을 시작합니다.
  3. 심사 위원 (LLM Judge):
    • "손님 A 의 메뉴 (꿀을 먹어도 돼요) 와 손님 B 의 주문이 정말 같은 의미일까?"를 정밀하게 검토합니다.
    • 승인: "맞아! 똑같은 뜻이야!" → 메뉴판에 손님 B 의 주문을 '꿀을 먹어도 돼요'라는 메뉴로 등록해 둡니다.
    • 거부: "아니야, 뉘앙스가 달라." → 아무 일도 없던 척합니다.

✨ Krites 의 마법: "점점 커지는 명품 메뉴판"

이 과정이 반복되면 어떤 일이 일어날까요?

  • 처음에는 "내 개한테 꿀을 줘도 되나요?"라는 주문이 들어와도 메뉴판에 없었습니다.
  • 하지만 Krites 가 심사 위원에게 확인해 보니, 이건 기존 메뉴와 같다는 결론이 나옵니다.
  • 그래서 시스템은 이미 준비된 '꿀' 요리를 손님 B 에게도 내줄 수 있도록 메뉴판을 업데이트합니다.
  • 결과: 다음에 비슷한 질문이 들어오면, 비싼 주방을 부르지 않고 이미 검증된 '명품 요리'를 바로 내줄 수 있게 됩니다.

📊 왜 이것이 중요한가요?

  1. 비용 절감: 비싼 주방 (LLM) 을 부르는 횟수가 줄어듭니다.
  2. 속도 향상: 검증된 요리를 바로 내주므로 응답이 빨라집니다.
  3. 안전성: 비싼 주방에서 새로 만든 요리보다, 미리 검증된 '명품 요리'를 내주는 것이 훨씬 안전하고 신뢰할 수 있습니다.
  4. 지연 시간 없음: 중요한 점은, 손님이 주문할 때 기다리는 시간은 전혀 늘어나지 않는다는 것입니다. 심사 위원 작업은 손님이 떠난 뒤에 조용히 이루어지기 때문입니다.

🎯 요약

Krites"너무 까다로운 규칙 때문에 버려지는 좋은 기회들을, 손님이 기다리는 시간을 늘리지 않고, 뒤에서 조용히 확인해서 메뉴판에 추가해 주는 똑똑한 시스템" 입니다.

이 덕분에 인공지능 서비스는 더 저렴하고, 더 빠르며, 더 안전한 답변을 제공할 수 있게 됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →