Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Ce papier présente Just-in-Time (JiT), un cadre d'accélération sans entraînement qui exploite la redondance spatiale des Transformers de diffusion via une sélection dynamique de tokens d'ancrage et un micro-flot déterministe, permettant d'atteindre une accélération jusqu'à 7 fois sur le modèle FLUX.1-dev avec une perte de performance négligeable.

Wenhao Sun, Ji Li, Zhaoqiang Liu

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : La Cuisine qui Ralentit

Imaginez que vous êtes un chef étoilé (c'est le modèle d'intelligence artificielle, comme FLUX.1) qui doit préparer un repas complexe (une image) à partir de rien.

Pour créer cette image, le chef ne la dessine pas d'un seul coup. Il doit passer par 50 étapes de "désencombrement".

  1. Il commence avec un brouillard total (du bruit).
  2. À chaque étape, il enlève un peu de brouillard pour révéler la forme du plat.
  3. Au début, il dessine juste les grandes lignes (un gros rond pour une assiette).
  4. À la fin, il ajoute les détails fins (la texture de la sauce, les herbes).

Le problème ? Pour chaque étape, le chef regarde tous les ingrédients sur la table en même temps, même ceux qui sont encore cachés sous le brouillard. C'est comme si, pour dessiner le contour d'une assiette, il devait aussi vérifier la couleur de chaque grain de sel qui n'est pas encore visible. C'est extrêmement lent et épuisant pour l'ordinateur.

⚡ La Solution : Just-in-Time (JiT)

Les auteurs de cet article ont inventé une méthode appelée "Just-in-Time" (JiT). C'est une technique qui permet de cuisiner 7 fois plus vite sans que le plat ne perde en qualité.

Voici comment ça marche, avec deux idées clés :

1. La Règle du "Seulement ce qui compte" (L'Accélération Spatiale)

Au lieu de regarder toute la table à chaque fois, le chef JiT adopte une stratégie intelligente :

  • Au début (quand tout est flou) : Il ne regarde que quelques points clés, comme les coins de l'assiette. Il devine le reste. Pourquoi ? Parce que tant que le brouillard est épais, les détails ne sont pas importants. Il se concentre sur la structure globale.
  • À la fin (quand l'image devient claire) : Il commence à regarder de plus en plus de détails, jusqu'à examiner chaque grain de sel.

C'est comme si vous regardiez une photo floue : d'abord, vous voyez juste la silhouette d'un arbre. Vous n'avez pas besoin de compter les feuilles pour savoir que c'est un arbre. Vous ne vous concentrez sur les feuilles que lorsque l'image est nette.

2. Le "Pont Magique" (Le Micro-Flux Déterministe)

Il y a un risque avec cette méthode : si on passe trop vite de "regarder peu de choses" à "regarder tout", l'image pourrait se casser ou devenir bizarre (comme un pont qui s'effondre).

Pour éviter ça, JiT utilise un "Pont Magique" (appelé Deterministic Micro-Flow).

  • Imaginez que vous ajoutez soudainement de nouveaux ingrédients à la table. Au lieu de les jeter n'importe comment, le chef les place avec une précision chirurgicale, en s'assurant qu'ils s'intègrent parfaitement à ce qui existe déjà.
  • Cela garantit que l'image reste fluide et cohérente, sans aucun "clic" ou défaut visible, même quand on accélère le processus.

🏆 Pourquoi c'est génial ?

Jusqu'à présent, pour aller plus vite, les gens faisaient deux choses :

  1. Réduire le nombre d'étapes : Comme si le chef cuisinait en 10 étapes au lieu de 50. Le résultat était souvent raté (le plat était brûlé ou incomplet).
  2. Mémoriser des étapes passées : Comme si le chef réutilisait les mêmes sauces. Ça marche, mais ça ne change pas la vitesse de base.

JiT, lui, change la façon de travailler :

  • Il ne réduit pas le nombre d'étapes (il fait toujours les 50 étapes).
  • Il ne change pas la recette.
  • Il optimise l'effort. Il ne dépense de l'énergie de calcul que là où c'est nécessaire, au bon moment.

📊 Les Résultats en Bref

  • Vitesse : Jusqu'à 7 fois plus rapide.
  • Qualité : Presque parfaite. Les images sont aussi belles que celles faites lentement.
  • Facilité : Pas besoin de réentraîner le chef (le modèle). On peut l'appliquer directement sur n'importe quel modèle moderne.

En Résumé

Imaginez que vous devez remplir un immense tableau blanc.

  • La méthode classique : Vous prenez un pinceau fin et vous remplissez chaque millimètre carré, du début à la fin, lentement.
  • La méthode JiT : Au début, vous utilisez un gros rouleau pour peindre les grandes zones de couleur (très vite). Ensuite, vous utilisez un pinceau moyen pour les formes. Et seulement à la toute fin, vous utilisez le pinceau fin pour les détails.

C'est cela, Just-in-Time : faire le bon travail, au bon endroit, au bon moment. Le résultat est un chef-d'œuvre créé en un clin d'œil.