From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings
Diese Arbeit untersucht semantisches Caching für LLM-Einbettungen, beweist die NP-Schwere optimaler Offline-Richtlinien, stellt polynomielle Heuristiken und Online-Strategien vor, die in Experimenten die Genauigkeit verbessern, und stellt den gesamten Code als Open Source bereit.