Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, ein Multi-Tenant-KI-System ist wie eine riesige, hochmoderne Bäckerei, die für viele verschiedene Kunden (Unternehmen) gleichzeitig Brot backt.
In dieser Bäckerei gibt es ein Problem:
- Die Nachfrage schwankt: Manchmal kommen nur ein paar Kunden, manchmal stürmen hunderte herein.
- Die Aufträge sind unterschiedlich: Ein Kunde bestellt vielleicht nur ein kleines Brötchen (kurze Anfrage), ein anderer bestellt einen riesigen, mehrstöckigen Hochzeitstorte (komplexe KI-Anfrage mit langer Antwort).
- Das Problem der alten Systeme:
- Der "Dedizierte Ofen"-Ansatz: Jeder Kunde bekommt seinen eigenen Ofen. Wenn er nichts bestellt, steht der Ofen leer und verschwendet Energie. Wenn er aber einen riesigen Kuchen bestellt, reicht der Ofen vielleicht nicht aus.
- Der "Zähl-Strich"-Ansatz (Rate Limits): Die Bäckerei sagt: "Jeder darf maximal 10 Aufträge pro Minute stellen." Das ist fair, aber dumm. Ein kleiner Auftrag (ein Brötchen) kostet genauso viel "Zeit am Zähler" wie ein riesiger Auftrag (ein Hochzeitstorte), obwohl der Torte den Ofen viel länger blockiert. Wenn plötzlich alle riesige Torten bestellen, bricht die Bäckerei zusammen, obwohl sie eigentlich genug Platz für Brötchen hätte.
Die Lösung: Der "Token-Pool" (Der Token-Pool)
Der Autor William Cunningham schlägt eine neue Methode vor, die er Token-Pools nennt.
Stellen Sie sich den Token-Pool nicht als Zähler für Aufträge vor, sondern als eine Art "Guthaben-Konto" für Backzeit und Platz im Ofen.
1. Die Währung ist "Token" (Backzeit & Platz)
Anstatt zu zählen, wie viele Aufträge jemand stellt, misst das System, wie viel Ressourcen jeder Auftrag verbraucht.
- Token-Durchsatz: Wie schnell backen wir? (Token pro Sekunde).
- KV-Cache (Der Platz im Ofen): Wie viel Platz braucht der Teig im Ofen? Ein langer Kuchen braucht mehr Platz als ein Brötchen.
- Parallelität: Wie viele Kuchen können gleichzeitig im Ofen liegen?
Das System sagt also nicht: "Du darfst 10 Aufträge machen", sondern: "Du hast ein Guthaben von 1000 Back-Einheiten. Ein Brötchen kostet 1 Einheit, ein Hochzeitstorte kostet 100."
2. Die Kunden-Kategorien (Service-Klassen)
Nicht jeder Kunde ist gleich wichtig. Das System unterscheidet verschiedene Kunden-Typen, ähnlich wie bei einem Hotel:
- Der VIP (Dediziert/Guaranteed): Hat einen eigenen, reservierten Ofenbereich. Egal wie voll es ist, sein Brot wird immer gebacken. Er wird nie vertrieben.
- Der Flexible Gast (Elastic): Hat ein garantiertes Mindestmaß, darf aber bei freiem Platz mehr backen. Wenn es voll wird, muss er etwas zurückstecken, bekommt aber später eine "Rückzahlung" (mehr Priorität), weil er vorher geduldig war.
- Der Schnäppchenjäger (Spot): Darf nur backen, wenn wirklich alles leer ist. Wenn ein VIP kommt, wird der Schnäppchenjäger sofort aus dem Ofen geworfen (seine Anfrage wird abgelehnt), damit der VIP Platz hat.
- Der Prekäre (Preemptible): Kann jederzeit komplett rausgeworfen werden, wenn es brennt.
3. Der "Schuld-Algorithmus" (Debt Mechanism) – Das Fairness-System
Das ist das Geniale an der Idee. Stellen Sie sich vor, der flexible Gast musste heute Mittag warten, weil es voll war. Das System merkt sich das.
- Es sagt: "Hey, du hast heute etwas weniger bekommen als versprochen. Du hast jetzt Schulden beim System."
- Wenn später wieder Platz ist, bekommt dieser Gast höhere Priorität, um seine Schulden zurückzuzahlen.
- Wer hingegen immer alles bekommen hat (keine Schulden), muss bei der nächsten Knappheit vielleicht etwas warten.
Das verhindert, dass ein Kunde dauerhaft benachteiligt wird, und sorgt dafür, dass alle fair behandelt werden, auch wenn die Nachfrage schwankt.
4. Wie funktioniert das in der Praxis? (Die Türsteher)
Früher wurde entschieden, wer in den Ofen darf, erst wenn der Teig schon im Ofen lag (zu spät!).
Bei Token Pools steht ein Türsteher (API-Gateway) vor der Bäckerei.
- Bevor der Kunde überhaupt den Auftrag aufgibt, prüft der Türsteher: "Hast du genug Guthaben? Ist dein Auftrag zu groß für den aktuellen Platz? Bist du ein VIP oder ein Schnäppchenjäger?"
- Wenn es zu voll ist, sagt der Türsteher dem Schnäppchenjäger: "Entschuldigung, heute ist kein Platz mehr. Komm später wieder." (Das ist die Ablehnung).
- Der VIP kommt sofort durch.
- Das Ergebnis: Die VIPs haben immer eine schnelle Bedienung (niedrige Wartezeit), während die Schnäppchenjäger ab und zu abgewiesen werden, aber das System insgesamt effizient läuft.
Zusammenfassung in einem Satz
Statt einfach nur zu zählen, wie viele Leute an der Theke stehen, misst Token-Pool, wie viel Platz und Zeit jeder Kunde wirklich braucht, und verteilt die knappen Ofenplätze so, dass die wichtigsten Kunden immer bedient werden, während die anderen fair warten oder später nachgeholt werden – alles ohne den Ofen selbst umbauen zu müssen.
Das Ergebnis: Die Bäckerei läuft immer voll ausgelastet, niemand verhungert (wird komplett ignoriert), und die VIPs bekommen ihr Brot immer frisch und schnell, egal wie viele Schnäppchenjäger gerade versuchen, reinzukommen.
Erhalten Sie solche Paper in Ihrem Posteingang
Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.