SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling

Le framework SOLARIS, inspiré du décodage spéculatif, permet le déploiement en temps réel de modèles de recommandation complexes chez Meta en précalculant de manière asynchrone les représentations latentes des interactions utilisateur-article, ce qui a permis d'augmenter les revenus de 0,67 % sans compromettre la qualité du service.

Zikun Liu, Liang Luo, Qianru Li, Zhengyu Zhang, Wei Ling, Jingyi Shen, Zeliang Chen, Yaning Huang, Jingxian Huang, Abdallah Aboelela, Chonglin Sun, Feifan Gu, Fenggang Wu, Hang Qu, Huayu Li, Jill Pan, Kaidi Pei, Laming Chen, Longhao Jin, Qin Huang, Tongyi Tang, Varna Puvvada, Wenlin Chen, Xiaohan Wei, Xu Cao, Yantao Yao, Yuan Jin, Yunchen Pu, Yuxin Chen, Zijian Shen, Zhengkai Zhang, Dong Liang, Ellie Wen

Publié 2026-04-15
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Problème : Le Dilemme du "Chef Cuisinier" vs. Le "Service Rapide"

Imaginez que Meta (Facebook, Instagram) possède un super-chef cuisinier (le Foundation Model ou Modèle de Base). Ce chef est un génie : il connaît des milliards de recettes, comprend les goûts de chaque client au millimètre près et peut créer le plat parfait.

Cependant, ce chef est très lent. Il prend des heures pour préparer un seul plat.

Dans le monde réel, des millions de clients arrivent chaque seconde et veulent commander immédiatement. Si on attend que le chef prépare tout, la file d'attente sera interminable et personne ne mangera.

Pour résoudre ce problème, les restaurants utilisent généralement des cuisiniers juniors (les Vertical Models ou Modèles Verticaux). Ils sont rapides, mais ils ne savent pas cuisiner aussi bien que le chef. Pour les aider, on leur donne parfois une "recette simplifiée" (ce qu'on appelle la distillation de connaissances), mais c'est comme donner un dessin de plat au lieu du vrai plat : le résultat est bon, mais pas excellent.

🚀 La Solution : SOLARIS (Le "Pré-commande" Intelligent)

L'équipe de Meta a inventé SOLARIS. Imaginez que c'est un système de commande anticipée ultra-intelligent.

Au lieu d'attendre que le client arrive pour demander au chef de cuisiner, SOLARIS devine ce que les clients vont commander dans les minutes à venir et fait préparer les plats à l'avance par le chef, dans un coin calme de la cuisine (en arrière-plan).

Voici comment cela fonctionne, étape par étape :

1. La Prédiction (Le "Devin")

SOLARIS utilise un petit détecteur (le Verifier Model) pour dire : "Tiens, ce client a l'air d'aimer les pizzas, et il va probablement regarder cette publicité de pizza dans 30 secondes."
Au lieu d'attendre l'ordre, le chef prépare déjà l'analyse de cette pizza pour ce client spécifique. C'est ce qu'on appelle le pré-calcul spéculatif.

2. Le Stockage (La "Cave à Plats")

Ces analyses préparées à l'avance sont stockées dans une cave (un cache rapide). Quand le client arrive réellement et commande, le serveur (le modèle rapide) n'a plus qu'à aller chercher le plat déjà prêt dans la cave.

  • Résultat : Le client reçoit son plat (la recommandation) instantanément, mais avec la qualité du grand chef.

3. Le Plan B (Si le plat n'est pas prêt)

Parfois, le chef n'a pas pu préparer le plat à l'avance (parce que le client a changé d'avis ou c'est un nouveau client). Que fait-on ?

  • Option A (Le "Plateau de l'ami") : On prend les plats que le chef a préparés pour les autres clients qui ont des goûts similaires, et on les adapte légèrement.
  • Option B (Le "Plateau moyen") : On prend tous les plats que ce client a aimés récemment, on les mélange, et on en fait un nouveau plat approximatif.

C'est ce qu'on appelle l'enrichissement hiérarchique. Même si le plat exact n'est pas prêt, on donne quand même au serveur quelque chose de très proche de la perfection, au lieu de rien du tout.

🏆 Les Résultats : Pourquoi c'est une révolution ?

Grâce à ce système, Meta a pu utiliser son "Super-Chef" pour des milliards de commandes par jour, sans ralentir le service.

  • Plus de qualité : Les recommandations sont beaucoup plus précises. Les gens voient des publicités qui les intéressent vraiment.
  • Plus d'argent : Cela a généré 0,67 % de revenus en plus pour la publicité. Pour Meta, cela représente environ 100 millions de dollars de plus par an !
  • Moins de gaspillage : On ne perd plus le savoir du grand chef. Avant, on devait le "simplifier" pour le rendre utilisable. Maintenant, on utilise son savoir directement, mais de manière intelligente.

🧠 En Résumé

SOLARIS, c'est comme avoir un assistant personnel qui devine vos envies avant même que vous ne les formuliez, et qui prépare tout pour que vous puissiez obtenir le meilleur service possible, instantanément.

C'est une façon de dire : "Pourquoi attendre que le génie travaille pendant que vous attendez ? Faisons-le travailler pendant que vous dormez ou que vous faites autre chose, pour que tout soit prêt quand vous en aurez besoin."

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →