Asynchronous Verified Semantic Caching for Tiered LLM Architectures

Het paper introduceert Krites, een asynchroon cachingbeleid dat een LLM-rechter gebruikt om statische antwoorden te verifiëren en dynamisch te promoten, waardoor de dekking van goedkope, vooraf gecureerde antwoorden aanzienlijk wordt vergroot zonder de latentie op het kritieke pad te beïnvloeden.

Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri, Tak Chiam, Weihua Zhu

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar dure en trage robot hebt die vragen beantwoordt. Dit is een Groot Taalmodel (LLM), zoals die achter AI-assistenten zit. Elke keer als iemand een vraag stelt, moet deze robot hard nadenken, wat veel geld kost en tijd kost.

Om dit sneller en goedkoper te maken, gebruiken bedrijven een cache (een soort slimme notitieblok). Als iemand een vraag stelt die eerder is gesteld, kijken ze eerst in hun notitieblok. Als het antwoord daar al staat, hoeft de robot niet te werken. Dat is snel en goedkoop.

Maar er is een probleem: mensen vragen dingen op duizenden verschillende manieren.

  • Vraag A: "Kan mijn hond honing eten?"
  • Vraag B: "Is het veilig voor een hond om honing te krijgen?"

Voor een computer zijn dit twee heel verschillende zinnen. Een traditioneel notitieblok kijkt alleen of de woorden exact hetzelfde zijn of heel erg op elkaar lijken. Als ze niet voldoende op elkaar lijken, denkt de computer: "Nee, dit is nieuw," en laat hij de dure robot aan het werk. Hierdoor gaat er veel geld en tijd verloren aan vragen die eigenlijk al beantwoord zijn.

Het probleem: De "Grijze Zone"

De huidige systemen hebben een strenge regel: "Alleen als de vragen 95% op elkaar lijken, mag je het oude antwoord gebruiken."

  • Als je de regel strenger maakt (bijv. 99%), mis je veel kansen om geld te besparen.
  • Als je de regel losser maakt (bijv. 80%), geef je soms het verkeerde antwoord (bijvoorbeeld: "Kan mijn hond honing?" vs "Kan mijn hond vergif eten?" – dat lijkt op elkaar, maar het antwoord is totaal anders).

Dit is de grijze zone: vragen die op elkaar lijken, maar waar de computer niet zeker van is of het antwoord mag worden gedeeld.

De oplossing: Krites (De "Asynchrone Keurmeester")

De auteurs van dit papier hebben Krites bedacht. Het is een slimme manier om die grijze zone veilig te gebruiken zonder de snelheid te vertragen.

Stel je Krites voor als een super-snel restaurant met twee niveaus:

  1. De Snelle Kassa (De Kritische Weg):
    Als een klant binnenkomt, kijkt de kassamedewerker direct in het standaard notitieblok.

    • Is de vraag exact hetzelfde? -> Direct antwoord. (Snel!)
    • Is de vraag heel anders? -> Naar de chef-kok (de dure robot). (Snel, want de beslissing is direct genomen).
    • Belangrijk: De klant wacht nooit op de chef-kok voor een beslissing. De kassa doet haar werk zoals altijd.
  2. De Achtertuin (De Asynchrone Verificatie):
    Wat gebeurt er als de kassamedewerker twijfelt? De vraag lijkt op een oude vraag, maar niet helemaal genoeg om het oude antwoord te geven.

    • In het oude systeem zou de klant nu naar de chef-kok worden gestuurd.
    • Bij Krites zegt de kassamedewerker: "Ik geef je het antwoord van de chef-kok (omdat ik niet mag wachten), maar ik stuur een stille melding naar een Keurmeester in de achtertuin."
  3. De Keurmeester (De LLM-Judge):
    Deze Keurmeester is een andere, zeer slimme AI die niet in de weg staat van de klant. Hij kijkt rustig naar de twee vragen in de achtertuin: "Is het antwoord voor 'Kan mijn hond honing?' ook goed voor 'Is het veilig voor een hond om honing te krijgen?'?"

    • Als de Keurmeester zegt: "Ja, dat is hetzelfde!", dan schrijft hij dit nieuwe antwoord in het notitieblok van de kassa, direct onder de nieuwe vraag.
    • De volgende keer dat iemand die vraag stelt, ziet de kassamedewerker het nieuwe antwoord en geeft het direct. De dure chef-kok hoeft niet meer te werken.

Waarom is dit geweldig?

  • Geen vertraging: De klant hoeft nooit te wachten op de Keurmeester. De snelheid blijft hetzelfde als het oude systeem.
  • Meer besparing: Het systeem leert van zijn twijfels. Vroeger werden twijfelachtige vragen als "nieuw" behandeld en duur betaald. Nu worden ze na een korte check in de achtertuin toch als "oud" herkend.
  • Veiligheid: Omdat de Keurmeester heel streng is (hij kijkt naar de betekenis, niet alleen naar de woorden), geven ze geen verkeerde antwoorden. Ze vangen de "grijze zone" veilig op.

Het resultaat

In tests hebben ze laten zien dat Krites het aantal keren dat ze een bestaand, veilig antwoord kunnen geven, met wel 3 tot 4 keer kunnen verhogen. Ze besparen enorm veel geld en tijd, zonder dat de gebruiker merkt dat er iets anders gebeurt.

Kortom: Krites is als een slimme conciërge die niet wacht tot de manager (de dure robot) een beslissing neemt, maar die achteraf een expert laat checken of een snelle beslissing wel klopte. Als dat zo is, past hij de regels aan voor de volgende keer. Zo wordt alles sneller, goedkoper en slimmer.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →