SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling

Das SOLARIS-Framework ermöglicht die Echtzeit-Inferenz komplexer Empfehlungsmittelmodelle durch spekulatives Vorausberechnen von Nutzer-Item-Embeddings, was bei Meta zu einer messbaren Umsatzsteigerung führte.

Zikun Liu, Liang Luo, Qianru Li, Zhengyu Zhang, Wei Ling, Jingyi Shen, Zeliang Chen, Yaning Huang, Jingxian Huang, Abdallah Aboelela, Chonglin Sun, Feifan Gu, Fenggang Wu, Hang Qu, Huayu Li, Jill Pan, Kaidi Pei, Laming Chen, Longhao Jin, Qin Huang, Tongyi Tang, Varna Puvvada, Wenlin Chen, Xiaohan Wei, Xu Cao, Yantao Yao, Yuan Jin, Yunchen Pu, Yuxin Chen, Zijian Shen, Zhengkai Zhang, Dong Liang, Ellie Wen

Veröffentlicht 2026-04-15
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Super-Chef", der zu langsam ist

Stell dir vor, Meta (Facebook, Instagram) hat einen riesigen, extrem intelligenten Super-Chef (das sogenannte Foundation Model). Dieser Chef kennt jeden Nutzer und jedes Produkt auf der Welt. Er kann vorhersagen, worauf du klicken wirst, besser als jeder andere.

Aber es gibt ein Problem: Dieser Chef ist so komplex und rechnet so langsam, dass er nicht schnell genug antworten kann, wenn du gerade auf dein Handy schaust. Wenn du auf Instagram scrollst, dauert es zu lange, bis der Chef sagt: „Zeig diesem Nutzer diese Werbung."

In der Vergangenheit mussten die Ingenieure einen kleinen, schnellen Junior-Mitarbeiter (das Vertical Model) einstellen, der die Arbeit erledigt. Der Chef hat dem Junior dann nur eine kurze Zusammenfassung gegeben (z. B. „Zeig ihm Sportartikel"). Das funktionierte, aber der Junior lernte nur das Oberflächliche und verpasste die feinen Details, die der Chef eigentlich wusste.

Die Lösung: SOLARIS – Der „Vorausschauende Assistent"

SOLARIS ist wie ein vorausschauender Assistent, der die Lücke zwischen dem langsamen Super-Chef und dem schnellen Junior-Mitarbeiter schließt. Die Idee dahinter ist ähnlich wie bei der „spekulativen Decodierung" in KI-Sprachmodellen, aber hier angewendet auf Werbung.

Stell dir SOLARIS so vor:

1. Die „Wahrscheinlichkeits-Radar" (Spekulative Vorausberechnung)

SOLARIS weiß: Wir können nicht warten, bis du auf eine Werbung klickst, um den Chef zu fragen. Das wäre zu spät.
Stattdessen sagt SOLARIS: „Okay, basierend auf dem, was dieser Nutzer gerade tut, ist es wahrscheinlich, dass er in den nächsten 10 Minuten Werbung für Schuhe oder Kaffee sehen wird."

Bevor du überhaupt auf das Handy schaust, berechnet SOLARIS im Hintergrund (während du schläfst oder arbeitest) genau, was der Super-Chef über diese Kombination aus „Nutzer + Schuh" denken würde. Er speichert diese „Gedanken" (Embeddings) in einem schnellen Lagerhaus.

  • Der Vergleich: Es ist wie ein Restaurant, das schon die Zutaten für die Gerichte vorbereitet, die die Gäste wahrscheinlich bestellen werden, bevor sie überhaupt die Speisekarte ansehen. Wenn du dann „Ich möchte Pizza" sagst, ist sie sofort fertig, weil sie schon vorbereitet war.

2. Der „Notfall-Plan" (Hierarchische Anreicherung)

Was passiert, wenn SOLARIS sich geirrt hat? Was, wenn du plötzlich auf eine Werbung für „Yoga-Matten" klickst, die niemand vorhergesehen hat? Das Lager ist leer.

Hier kommt der zweite Trick von SOLARIS ins Spiel:

  • Sammeln: Wenn keine spezifische Vorhersage für „Nutzer + Yoga-Matte" existiert, schaut SOLARIS: „Was hat dieser Nutzer sonst noch gekauft?" und mittelt diese Informationen.

  • Nachbarn: Wenn das auch nicht hilft, schaut SOLARIS: „Wer ist diesem Nutzer ähnlich?" und nutzt die Vorhersagen für diese ähnlichen Leute.

  • Der Vergleich: Stell dir vor, du fragst einen Freund nach einem Restaurant. Er kennt das genaue Restaurant nicht (leeres Lager). Also sagt er: „Ich kenne es nicht, aber ich kenne jemanden, der genau wie du ist, und der hat dort gegessen. Oder: Du magst Pizza, also empfehle ich dir ein italienisches Restaurant, das du noch nicht kennst, aber das zu deinem Geschmack passt."

Warum ist das so großartig?

  1. Kein Warten: Da die harte Arbeit des Super-Chefs schon im Hintergrund erledigt wurde, muss der Junior-Mitarbeiter beim Klick nicht warten. Die Antwort kommt sofort.
  2. Besseres Wissen: Der Junior-Mitarbeiter bekommt nicht nur eine grobe Anweisung, sondern die tiefgründigen „Gedanken" des Super-Chefs. Er wird dadurch fast so klug wie der Chef, bleibt aber schnell wie ein Junior.
  3. Riesiger Erfolg: Meta hat SOLARIS in ihrem Werbesystem eingesetzt. Das Ergebnis? Die Werbung war so viel besser, dass sie 0,67 % mehr Einnahmen generiert hat. Bei der Größe von Meta entspricht das hundert Millionen Dollar pro Jahr.

Zusammenfassung in einem Satz

SOLARIS ist ein cleveres System, das die Arbeit eines langsamen, aber genialen KI-Giganten im Voraus erledigt und speichert, damit die schnelle Werbung auf deinem Handy sofort die besten Empfehlungen geben kann – ohne dass du eine Sekunde warten musst.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →