BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Le papier présente BLOCK, un pipeline open-source en deux étapes qui génère des skins Minecraft parfaits à partir de concepts de personnages en utilisant un modèle multimodal pour créer un aperçu 3D et un modèle FLUX.2 affiné via une méthode EvolveLoRA pour convertir cet aperçu en atlas de skin.

Hengquan Guo

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez créer un costume pour un personnage dans le jeu Minecraft. Le problème, c'est que dans Minecraft, les costumes ne sont pas de simples images 3D lisses. Ce sont des "cartes de peau" (des textures) très spécifiques, composées de petits carrés de pixels (comme un damier de 64x64), qui doivent être pliés et collés sur un modèle 3D d'une manière très précise.

C'est un peu comme si vous deviez dessiner un costume sur un plan de couture plat, mais en sachant exactement comment il s'adaptera une fois cousu sur un mannequin en Lego. Si vous faites une erreur d'un seul pixel, le costume peut sembler déformé ou bizarre une fois dans le jeu.

Jusqu'à présent, les intelligences artificielles les plus avancées avaient du mal à faire cela. Elles pouvaient dessiner un personnage magnifique, mais elles échouaient lamentablement à transformer ce dessin en un "plan de couture" valide pour Minecraft.

Voici comment BLOCK, le nouveau système présenté dans ce papier, résout ce problème en deux étapes simples, comme un atelier de couture en deux temps :

Étape 1 : Le Traducteur de Style (L'IA qui "voit" le personnage)

Imaginez que vous montrez une photo de votre personnage (par exemple, un guerrier en armure rouge) à un artiste très doué, mais qui ne connaît pas les règles strictes de Minecraft.

  • Le problème : Si vous lui demandez directement de faire le "plan de couture", il va probablement se tromper, mélanger le devant et le dos, ou dessiner des détails trop complexes qui ne tiendront pas sur le petit damier de Minecraft.
  • La solution BLOCK : Au lieu de demander le plan final tout de suite, on demande d'abord à l'IA de faire une esquisse de référence.
    • L'IA prend votre photo et génère une image "Minecraft" propre : un personnage debout, de face et de dos, sur un fond blanc, avec un style légèrement en diagonale pour bien voir les détails.
    • C'est comme si l'IA prenait votre photo floue et complexe, et la transformait en un modèle de mannequin standardisé et propre. Elle ne s'occupe pas encore du plan de couture, elle se contente de dire : "Voici à quoi ressemble le personnage, proprement, prêt à être transformé."

Étape 2 : Le Couturier Expert (L'IA qui dessine le plan)

Maintenant que nous avons cette esquisse propre (le mannequin standardisé), nous passons à un deuxième expert, un "couturier" spécialisé uniquement dans les textures Minecraft.

  • Le travail : Ce couturier regarde l'esquisse de l'étape 1 et dessine le plan de couture final (la texture 512x512 qui deviendra le costume 64x64).
  • L'astuce magique (EvolveLoRA) : Pour entraîner ce couturier, les chercheurs n'ont pas commencé par le jeter dans le grand bain. Ils ont utilisé une méthode progressive, comme apprendre à conduire :
    1. Phase 1 (Le permis de conduire) : On lui apprend d'abord à dessiner des textures à partir de simples descriptions textuelles (ex: "tête rouge, corps bleu").
    2. Phase 2 (La conduite en ville) : On lui donne ensuite des images de personnages (face/dos) et on lui demande de faire le plan de couture correspondant.
    3. Phase 3 (La course) : Enfin, on lui donne l'esquisse de l'étape 1 (le mannequin standardisé) et on lui demande de faire le plan final.
    • Chaque étape utilise les connaissances de la précédente. C'est comme si le couturier avait déjà appris les bases avant de s'attaquer au cas le plus difficile. Cela rend l'apprentissage beaucoup plus stable et efficace.

Pourquoi cette approche est géniale ?

Si vous demandiez à une seule IA de faire tout le travail d'un coup (de la photo au plan de couture), elle serait perdue. C'est comme demander à un architecte de dessiner un bâtiment, de gérer la plomberie, et de peindre les murs en même temps, sans jamais s'arrêter.

BLOCK sépare les tâches :

  1. L'IA "Artistique" s'occupe de la compréhension (qui est le personnage ?).
  2. L'IA "Technique" s'occupe de la structure (comment plier les pixels pour que ça marche dans Minecraft).

Le résultat

Le système prend n'importe quelle idée de personnage (une photo, un dessin, une idée folle) et vous sort un costume Minecraft parfaitement valide, prêt à être utilisé dans le jeu, sans que vous ayez besoin de savoir dessiner des pixels ou de comprendre la géométrie complexe des textures.

En résumé, BLOCK est un pont intelligent qui transforme n'importe quelle idée de personnage en un costume de jeu vidéo fonctionnel, en décomposant le problème difficile en deux tâches plus simples et en utilisant un entraînement progressif pour éviter les erreurs. C'est comme avoir un assistant qui prépare vos ingrédients (l'esquisse) avant de vous laisser cuisiner le plat final (le costume).