Asynchronous Verified Semantic Caching for Tiered LLM Architectures

本文提出了 Krites,一种针对分层大语言模型架构的异步验证语义缓存机制,它通过在关键路径外异步调用大模型判断器来验证并推广静态缓存中的近似匹配,从而在不增加延迟的前提下将静态缓存的命中率最高提升了 3.9 倍。

Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri, Tak Chiam, Weihua Zhu

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 Krites 的新系统,旨在让大型人工智能(LLM)在回答问题时更便宜、更快速,同时保持高质量。

为了让你轻松理解,我们可以把整个系统想象成一家超级繁忙的“智能餐厅”

1. 背景:餐厅的困境

想象一下,这家餐厅(AI 系统)非常受欢迎,每天都有成千上万的顾客(用户提问)进来点菜。

  • 昂贵的厨师(LLM 后端): 餐厅里有一位才华横溢但极其昂贵的“主厨”。每做一道新菜(生成新回答),他都需要花费大量时间和金钱。
  • 两个菜单区(分级缓存): 为了省钱,餐厅设了两个菜单区:
    1. 经典菜单区(静态缓存): 这里放着经过严格审核、由专家精心编写的“金牌菜谱”。这些菜质量极高,但更新很慢,只能由主厨或专家提前写好。
    2. 今日特供区(动态缓存): 这里放着主厨刚刚做出来、还没经过严格审核的“现做菜”。更新快,能应对突发需求,但质量可能不如金牌菜谱稳定。

现有的问题:
以前,餐厅只用一把“尺子”(相似度阈值)来衡量顾客点的菜和菜单上的菜是否一样。

  • 如果顾客问“我的狗能吃蜂蜜吗?”,菜单上有“狗能吃蜂蜜吗?”,尺子量出来很像,就直接给金牌菜谱(命中)。
  • 如果顾客问“我家狗狗能不能吃蜂蜜呀?”,虽然意思一样,但措辞稍微有点不同,尺子量出来“不够像”,餐厅就判定为“没命中”。
  • 结果: 餐厅被迫请昂贵的“主厨”重新做一道一模一样的菜,既浪费钱又浪费时间。这就是所谓的“灰色地带”——意思一样,但系统觉得不够像。

2. Krites 的解决方案:异步的“金牌评审员”

Krites 就像是在餐厅里引入了一位聪明的“金牌评审员”(LLM Judge),但他有一个绝妙的特点:他不在点菜台(关键路径)上工作,而是在后台工作。

它的运作流程是这样的:

  1. 前台照旧(不增加等待时间):
    当顾客点菜时,服务员(系统)依然只用那把旧尺子量。

    • 如果尺子量出来“很像”,直接给金牌菜谱(直接命中)。
    • 如果尺子量出来“完全不像”,直接请主厨做新菜(未命中)。
    • 关键点: 如果尺子量出来“有点模糊”(在灰色地带),服务员不会停下来等评审员,而是直接按旧规则处理(通常是去问主厨或者给动态菜单)。顾客感觉不到任何延迟增加。
  2. 后台“补刀”(异步验证):
    就在服务员把订单递给主厨的同时,后台的“金牌评审员”悄悄开始工作了。

    • 评审员看着刚才那个“有点模糊”的订单,仔细对比:“顾客问的‘狗狗吃蜂蜜’和金牌菜谱里的‘狗能吃蜂蜜’,意思真的完全一样吗?”
    • 如果评审员说“是”: 他立刻把这个金牌菜谱复制一份,贴到“今日特供区”(动态缓存)里,并写上标签:“这道菜其实来自金牌菜单”。
    • 如果评审员说“不是”: 那就忽略,按原计划处理。
  3. 未来的红利:
    当下一个顾客再次问“我家狗狗能不能吃蜂蜜呀?”时,系统去“今日特供区”一看,发现那里已经贴着“金牌菜谱”了!

    • 结果: 餐厅直接给出了高质量的金牌答案,既省了主厨的钱,又没让顾客多等一秒。

3. 为什么这很厉害?(核心优势)

  • 不牺牲速度: 传统的做法是让评审员在点菜时当场检查,这会让大家排队等很久。Krites 把检查放在后台,顾客点菜的速度完全没变
  • 变废为宝: 它把那些原本因为“措辞不同”而被浪费掉的“金牌菜谱”机会,重新利用了起来。
  • 越用越聪明: 随着时间推移,后台评审员把越来越多的金牌菜谱“搬运”到了动态菜单区。系统能直接提供高质量答案的比例越来越高。

4. 实验结果:效果惊人

论文在模拟的“对话场景”和“搜索场景”中测试了 Krites:

  • 搜索场景中,使用 Krites 后,餐厅直接提供“金牌菜谱”(高质量、经过审核的答案)的比例,比原来提高了近 3 倍(290%)。
  • 对话场景中,这一比例也提高了 1.36 倍
  • 最重要的是:没有任何顾客抱怨等待时间变长了。

总结

Krites 就像是一个聪明的餐厅经理:
他不想让顾客在点菜时多等一秒,所以他不打断点菜流程。但他会在后台悄悄地把那些“虽然措辞不同但意思一样”的好菜谱,从“经典区”搬运到“现做区”。
这样,下次再有类似的顾客来,餐厅就能直接端出经过严格审核的“金牌菜”,既省了主厨的力气,又保证了菜的质量,还让顾客吃得开心。

这就是异步验证语义缓存:在不牺牲速度的前提下,把 AI 系统的“省钱”和“高质量”做到了极致。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →