Asynchronous Verified Semantic Caching for Tiered LLM Architectures

Each language version is independently generated for its own context, not a direct translation.

🍽️ 비유: "고급 레스토랑의 메뉴판과 주방"

인공지능이 질문에 답하는 과정을 고급 레스토랑에 비유해 보겠습니다.

LLM (대규모 언어 모델): 거대한 주방입니다. 모든 주문을 직접 요리하면 맛있지만, 시간이 오래 걸리고 비용이 매우 비쌉니다.
캐싱 (Caching): 미리 만들어 둔 준비된 요리입니다. 손님이 같은 주문을 하면 주방에서 새로 요리할 필요 없이 준비된 요리를 바로 내줄 수 있어 빠르고 저렴합니다.
계층형 구조 (Tiered Architecture):
- 정적 캐시 (Static Tier): 주방장이 신중하게 검토하고 맛을 본 '명품 요리'들입니다. 안전하고 품질이 확실하지만, 메뉴판에 올라가 있는 요리만 팔 수 있습니다.
- 동적 캐시 (Dynamic Tier): 오늘 주문이 들어와서 실시간으로 만든 요리들입니다. 다양하지만, 아직 검증이 덜 된 상태일 수 있습니다.

🚨 문제: "너무 까다로운 메뉴판"

기존 시스템은 "손님의 주문 (질문) 이 메뉴판 (정적 캐시) 에 있는 요리와 95% 이상 비슷하면 바로 내주고, 95% 미만이면 무조건 주방으로 보내라" 라는 규칙을 따릅니다.

문제 상황:
- 손님 A: "내 개가 꿀을 먹어도 될까?" (메뉴판에 있음)
- 손님 B: "내 개한테 꿀을 줘도 되나요?" (의미는 똑같은데, 문장 구조가 조금 다름)
- 결과: 기존 시스템은 두 문장이 95% 미만의 유사도라고 판단하면, 손님 B 의 주문을 거절하고 비싼 주방 (LLM) 에 보내버립니다.
- 손실: 사실 두 질문은 똑같은 의미인데, 너무 엄격한 규칙 때문에 이미 준비된 맛있는 요리 (정적 캐시) 를 버리고 비싼 주방을 이용하는 셈이 됩니다.

💡 해결책: Krites (크리테스) 의 아이디어

Krites 는 "주문을 바로 거절하지 말고, 뒤에서 한 번 더 확인해 보자" 는 아이디어입니다.

** critical path (주문 처리 중):** 손님이 주문하면 기존 규칙대로 처리합니다. 95% 이상이면 바로 내주고, 아니면 주방으로 보냅니다. 손님이 기다리는 시간은 그대로입니다.
회색 지대 (Grey Zone): 만약 "95% 미만이지만, 80% 는 넘는" 애매한 주문이 들어오면?
- 손님은 기다리지 않고 기존 규칙대로 처리됩니다 (혹시 주방이 바쁘면 대기하거나, 동적 캐시를 이용합니다).
- 하지만 배경에서 (비동기적으로) "요리 심사 위원 (LLM Judge)"이 조용히 일을 시작합니다.
심사 위원 (LLM Judge):
- "손님 A 의 메뉴 (꿀을 먹어도 돼요) 와 손님 B 의 주문이 정말 같은 의미일까?"를 정밀하게 검토합니다.
- 승인: "맞아! 똑같은 뜻이야!" → 메뉴판에 손님 B 의 주문을 '꿀을 먹어도 돼요'라는 메뉴로 등록해 둡니다.
- 거부: "아니야, 뉘앙스가 달라." → 아무 일도 없던 척합니다.

✨ Krites 의 마법: "점점 커지는 명품 메뉴판"

이 과정이 반복되면 어떤 일이 일어날까요?

처음에는 "내 개한테 꿀을 줘도 되나요?"라는 주문이 들어와도 메뉴판에 없었습니다.
하지만 Krites 가 심사 위원에게 확인해 보니, 이건 기존 메뉴와 같다는 결론이 나옵니다.
그래서 시스템은 이미 준비된 '꿀' 요리를 손님 B 에게도 내줄 수 있도록 메뉴판을 업데이트합니다.
결과: 다음에 비슷한 질문이 들어오면, 비싼 주방을 부르지 않고 이미 검증된 '명품 요리'를 바로 내줄 수 있게 됩니다.

📊 왜 이것이 중요한가요?

비용 절감: 비싼 주방 (LLM) 을 부르는 횟수가 줄어듭니다.
속도 향상: 검증된 요리를 바로 내주므로 응답이 빨라집니다.
안전성: 비싼 주방에서 새로 만든 요리보다, 미리 검증된 '명품 요리'를 내주는 것이 훨씬 안전하고 신뢰할 수 있습니다.
지연 시간 없음: 중요한 점은, 손님이 주문할 때 기다리는 시간은 전혀 늘어나지 않는다는 것입니다. 심사 위원 작업은 손님이 떠난 뒤에 조용히 이루어지기 때문입니다.

🎯 요약

Krites는 "너무 까다로운 규칙 때문에 버려지는 좋은 기회들을, 손님이 기다리는 시간을 늘리지 않고, 뒤에서 조용히 확인해서 메뉴판에 추가해 주는 똑똑한 시스템" 입니다.

이 덕분에 인공지능 서비스는 더 저렴하고, 더 빠르며, 더 안전한 답변을 제공할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 이 검색, 어시스턴트, 에이전트 워크플로우의 핵심 경로에 자리 잡으면서, 추론 비용과 지연 시간 (Latency) 을 줄이기 위해 시맨틱 캐싱 (Semantic Caching) 이 필수적이 되었습니다.

현황: 대부분의 프로덕션 시스템은 정적 (Static) 과 동적 (Dynamic) 으로 구성된 2 단계 캐싱 아키텍처를 사용합니다.
- 정적 캐시: 오프라인으로 선별되고 검증된 고品質 응답을 저장 (안전성 및 안정성 보장).
- 동적 캐시: 온라인으로 생성된 응답을 저장 (최신성 및 긴 꼬리 트래픽 처리).
핵심 문제: 기존 시스템은 두 계층 모두에 단 하나의 임계값 (Similarity Threshold) 을 적용합니다.
- 임계값을 높게 설정하면 오류는 줄지만, 유사한 질문 (Paraphrase) 을 캐싱하지 못해 캐시 히트율이 낮아집니다.
- 임계값을 낮게 설정하면 히트율은 높아지지만, 의미적으로 다른 응답을 잘못 반환할 위험 (False Hit) 이 커집니다.
회색 지대 (Grey Zone): 임계값 바로 아래에 위치하여 임계값 정책에서는 '미스 (Miss)'로 처리되지만, 실제로는 의미적으로 동일한 응답이 가능한 영역이 존재합니다. 기존 방식은 이 영역의 기회를 놓치거나, 실시간으로 LLM 을 호출하여 검증하면 지연 시간이 증가하는 딜레마에 직면합니다.

2. 제안 방법론: Krites (Methodology)

저자들은 Krites라는 새로운 비동기 검증 기반 캐싱 정책을 제안합니다. 이는 서비스 경로 (Critical Path) 의 지연 시간을 증가시키지 않으면서 정적 캐시의 커버리지를 확장하는 것이 핵심입니다.

핵심 메커니즘

비동기 검증 (Asynchronous Verification):
- 사용자의 요청이 들어오면 기존과 동일하게 정적/동적 캐시 임계값을 기준으로 히트/미스를 결정합니다.
- 회색 지대 트리거: 정적 캐시에서 가장 가까운 이웃 (Nearest Neighbor) 의 유사도가 임계값 ( $\tau_{static}$ ) 미만이지만, 하한선 ( $\sigma_{min}$ ) 이상인 경우 (회색 지대), 해당 요청은 즉시 처리되지만 비동기 백그라운드 작업으로 검증 요청이 큐에 쌓입니다.
LLM 어드저 (LLM-as-a-Judge):
- 백그라운드에서 LLM 어드저가 입력 질문 ( $q$ ) 과 캐시된 질문 ( $h$ ) 및 응답 ( $a$ ) 을 비교하여 의미적 동등성을 판단합니다.
- 검증 기준은 의도 일치, 개체/제약 조건 일관성, 신선도 등을 포함합니다.
보조 오버라이트 (Auxiliary Overwrite):
- 검증이 통과 (Approved) 된 경우, 해당 정적 응답을 동적 캐시에 새로운 키로 업서트 (Upsert) 합니다.
- 이를 통해 동적 캐시는 정적 캐시의 "가변 포인터 레이어" 역할을 수행하게 됩니다.
- 이후 동일한 질문이나 유사한 재발생 시, 동적 캐시를 통해 검증된 정적 응답을 즉시 반환할 수 있게 됩니다.

시스템 아키텍처 특징

비차단 서비스 (Non-blocking): 모든 사용자-facing 결정은 기존 임계값 정책에 따라 이루어지므로, 검증이 필요한 요청의 지연 시간은 변하지 않습니다.
계층 간 결합: 정적 캐시 (읽기 전용, 고품질) 와 동적 캐시 (쓰기 가능) 를 비동기 검증 루프를 통해 연결하여 정적 응답의 재사용 범위를 확장합니다.

3. 주요 기여 (Key Contributions)

비동기 검증 정책 (Krites Policy): 서비스 경로와 검증을 분리하고, 보조 오버라이트를 통해 검증된 정적 응답을 동적 캐시로 승격시키는 새로운 아키텍처를 제안했습니다.
지연 시간 불변성: 임계값 정책과 서비스 경로를 변경하지 않아, 기존 시스템의 지연 시간 특성을 유지하면서도 정적 캐시 히트율을 획기적으로 높였습니다.
안전성 및 신뢰성 향상: 동적으로 생성된 응답 대신 오프라인으로 검증된 '골드 (Gold)' 정적 응답을 제공하는 비율을 늘려, 기업용 검색이나 의료 분야 등 안전성이 중요한 환경에서 시스템의 신뢰도를 높였습니다.

4. 실험 결과 (Results)

저자들은 SemCacheLMArena(대화형) 와 SemCacheSearchQueries(검색형) 라는 두 가지 벤치마크를 사용하여 트래픽 시뮬레이션을 수행했습니다.

정적 기원 응답 비율 (Static-origin served fraction) 증가:
- 대화형 트래픽 (SemCacheLMArena): 기존 튜닝된 베이스라인 대비 136% 증가 (8.2% $\rightarrow$ 19.4%).
- 검색형 트래픽 (SemCacheSearchQueries): 기존 베이스라인 대비 290% 증가 (2.2% $\rightarrow$ 8.6%).
지연 시간: 검증이 비동기로 수행되므로, 임계 경로 (Critical Path) 의 지연 시간은 증가하지 않았습니다.
검증기 정확도: 실제 LLM (Claude Opus 4.5) 을 사용한 테스트에서 인간 라벨과 99/100 의 일치율을 보여, LLM 기반 검증의 실현 가능성을 입증했습니다.

5. 의의 및 결론 (Significance)

기존 한계 극복: 단일 임계값 정책이 가진 '히트율 vs 오류율'의 트레이드오프를 해결합니다. 임계값을 낮추지 않고도 회색 지대의 기회를 포착하여 정적 캐시의 가치를 극대화합니다.
실용성: 프로덕션 환경에서 정적 캐시는 안전성 검토 등으로 인해 업데이트가 어렵습니다. Krites 는 이러한 정적 캐시의 고品質 응답을 동적 캐시를 통해 유연하게 재사용하게 함으로써, 시스템의 비용 효율성과 응답 품질을 동시에 개선합니다.
시스템 설계 패러다임: LLM 어드저를 서비스 경로에 직접 배치하는 대신 비동기적으로 활용함으로써, 상호작용형 워크로드에 필요한 저지연 특성을 유지하면서 고신뢰성 검증을 가능하게 하는 새로운 시스템 설계 패턴을 제시합니다.

요약하자면, Krites는 LLM 서비스의 비용과 지연 시간을 줄이면서도 정적 캐시의 고品質 응답을 최대한 활용하기 위해, 비동기 검증과 동적 캐시 업데이트를 결합한 혁신적인 솔루션입니다.