HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Le papier présente HybridStitch, une nouvelle méthode d'accélération pour la génération d'images par diffusion qui combine un grand et un petit modèle en traitant la création comme une édition, en utilisant le petit modèle pour les zones simples et le grand pour les zones complexes, permettant ainsi un gain de vitesse de 1,83 fois sur Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous commandez un tableau magnifique à un artiste très célèbre, mais très lent (le Grand Modèle). Il prend des heures pour peindre chaque détail, du ciel aux visages. Maintenant, imaginez un assistant rapide mais un peu moins talentueux (le Petit Modèle).

Le problème, c'est que si vous demandez au Grand Modèle de tout faire, cela prend trop de temps. Si vous demandez à l'assistant de tout faire, c'est trop rapide mais le résultat est moche.

Les méthodes précédentes disaient : "Ok, on laisse le Grand Modèle faire les 40 premières minutes, puis on donne le pinceau à l'assistant pour le reste." C'est mieux, mais pas parfait. Pourquoi ? Parce que dans une image, certaines parties sont faciles (un ciel bleu uni) et d'autres sont très complexes (les yeux d'un chien, les plis d'un vêtement).

C'est ici qu'intervient HybridStitch, la nouvelle méthode présentée dans cet article. Voici comment ça marche, avec des images simples :

1. L'idée principale : Le chef d'orchestre et les zones de travail

Au lieu de changer de modèle pour toute l'image d'un coup, HybridStitch agit comme un chef d'orchestre très intelligent qui divise le travail pixel par pixel.

  • Le Grand Modèle (l'Expert) : Il ne travaille que sur les zones difficiles. C'est comme si un architecte ne venait vérifier que les fondations et les poutres complexes d'une maison, laissant le reste aux ouvriers.
  • Le Petit Modèle (l'Assistant Rapide) : Il travaille sur toute l'image, mais surtout sur les zones faciles (le ciel, l'herbe, les murs lisses). Il fait le gros œuvre rapidement.

2. Le processus en trois étapes (La "Couture")

Imaginez que vous dessinez une image étape par étape, en partant d'un brouillard flou jusqu'à une image nette.

  • Étape 1 : Le Brouillard Initial
    Au tout début, tout est flou. L'Expert (Grand Modèle) travaille sur toute l'image pour poser les bases, comme un architecte qui trace les murs principaux.

  • Étape 2 : La Division du Travail (Le cœur de la méthode)
    C'est là que la magie opère. Le système regarde l'image et se dit : "Tiens, le ciel est déjà assez joli, l'assistant peut s'en occuper. Mais les yeux du chat sont encore flous, l'expert doit les finir."

    • L'Assistant (Petit Modèle) prend le relais sur tout l'image pour avancer vite.
    • L'Expert (Grand Modèle) intervient uniquement sur les zones difficiles (les yeux du chat, les détails complexes).
    • L'astuce secrète (Le Cache KV) : Pour que l'Expert ne perde pas le fil et ne fasse pas des erreurs de contexte (comme dessiner un chat avec un nez de chien), le système lui "colle" les souvenirs des étapes précédentes. C'est comme si l'Expert avait une photo de l'étape précédente collée sur son bureau pour savoir où il en était, même s'il ne travaille que sur une petite partie du dessin.
  • Étape 3 : Le Finissage
    Une fois que les zones difficiles sont assez nettes, même l'Expert peut arrêter de travailler. L'Assistant prend alors le relais sur tout l'image pour polir les derniers détails jusqu'à la fin.

3. Pourquoi c'est génial ? (Les résultats)

  • Vitesse Éclair : Parce que l'Expert ne travaille que sur une petite partie de l'image la plupart du temps, le processus est beaucoup plus rapide. L'article montre une accélération de 1,83 fois par rapport à l'utilisation du Grand Modèle seul. C'est comme passer d'une voiture de ville à une Formule 1.
  • Qualité Préservée : Même si on va plus vite, l'image reste belle. Pourquoi ? Parce que les zones complexes (les plus importantes pour la beauté de l'image) ont toujours eu l'attention de l'Expert. On ne sacrifie pas la qualité pour la vitesse.
  • Pas besoin de réapprendre : Cette méthode ne nécessite pas de réentraîner les modèles. C'est comme un nouveau logiciel qui s'installe sur vos outils existants pour les rendre plus efficaces.

En résumé

HybridStitch, c'est comme avoir un atelier de peinture où le Maître Peintre ne touche au pinceau que là où c'est vraiment nécessaire (les visages, les détails), tandis qu'un apprenti rapide remplit le reste du tableau (le fond, le ciel). Le résultat ? Une œuvre d'art magnifique, produite en moitié moins de temps.

C'est une solution intelligente qui comprend que toutes les parties d'une image ne demandent pas le même effort, et elle adapte le travail en conséquence.