BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Das Open-Source-Projekt BLOCK stellt eine zweistufige Pipeline vor, die mithilfe eines Large Multimodal Model (MLLM) und eines feinabgestimmten FLUX.2-Modells in Kombination mit der EvolveLoRA-Methode pixelgenaue Minecraft-Skins aus beliebigen Charakterkonzepten generiert.

Hengquan Guo

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest deinen Lieblingscharakter aus einem Film, einem Comic oder einem Foto in Minecraft verwandeln. Du willst, dass er genau so aussieht: mit dem gleichen Hut, dem gleichen Mantel und den gleichen Farben.

Das Problem ist: Minecraft ist wie ein riesiges Pixel-Raster. Ein Skin ist nicht einfach ein Bild, sondern eine Art „Abwicklungsplan" (eine UV-Karte) für eine 3D-Box. Wenn man versucht, ein normales Foto direkt in diesen Plan zu verwandeln, passiert oft ein Chaos: Die Arme landen am Kopf, die Farben verschwimmen, und das Ergebnis sieht aus wie ein pixeliges Durcheinander.

Die Forscher von BLOCK haben eine clevere Lösung gefunden, die wie eine zweistufige Fabrik funktioniert. Hier ist die Erklärung, ganz einfach und mit ein paar bildhaften Vergleichen:

🏭 Die BLOCK-Fabrik: Zwei Stationen

Stell dir den Prozess wie eine kleine Manufaktur vor, die in zwei Schritten arbeitet, anstatt alles auf einmal zu versuchen.

Schritt 1: Der „Übersetzer" (Die MLLM-Stufe)

Stell dir vor, du hast ein Foto von Kobe Bryant. Du gibst es in die Maschine.

  • Das Problem: Ein normaler KI-Modell versucht oft, das Foto direkt in den Minecraft-Plan zu pressen. Das ist wie wenn du versuchst, einen ganzen Globus auf ein kleines Stück Tapete zu kleben – es passt nicht.
  • Die Lösung von BLOCK: Die erste Maschine (ein sehr schlauer KI-Übersetzer namens Gemini) nimmt dein Foto und sagt: „Okay, ich verstehe, wer das ist." Aber statt den Skin direkt zu malen, malt sie erst eine Vorlage.
  • Die Analogie: Stell dir vor, ein Architekt nimmt eine Skizze eines Hauses und malt daraus einen perfekten, sauberen Bauplan mit Front- und Rückansicht. Er ignoriert den Hintergrund, stellt die Person in eine starre Pose (wie ein Puppenständer) und sorgt dafür, dass alles klar und deutlich ist.
  • Das Ergebnis: Ein sauberes Bild, das zeigt: „Hier ist die Vorderseite, hier die Rückseite, und alles ist im Minecraft-Stil."

Schritt 2: Der „Handwerker" (Der FLUX.2-Modell)

Jetzt kommt der zweite Teil ins Spiel. Dieser Teil ist ein spezialisierter Handwerker, der nur eines kann: Texturierung.

  • Die Aufgabe: Er nimmt den sauberen Bauplan aus Schritt 1 und malt daraus den eigentlichen Minecraft-Skin (das kleine 64x64 Pixel-Bild).
  • Die Analogie: Stell dir vor, der Architekt (Schritt 1) hat den Plan gezeichnet. Der Handwerker (Schritt 2) nimmt diesen Plan und füllt die einzelnen Ziegelsteine mit Farbe. Er weiß genau, wo der Kopf ist, wo die Beine sind und wie die Farben auf die „Abwicklungsfläche" passen müssen.
  • Das Besondere: Dieser Handwerker wurde nicht einfach so geboren. Er wurde in einem drei-Phasen-Lernprogramm geschult (das nennen die Forscher EvolveLoRA):
    1. Phase 1: Er lernt erst mal nur, Bilder aus Textbeschreibungen zu malen (z. B. „Ein roter Kopf, blaue Hose").
    2. Phase 2: Er lernt, ein Bild in ein anderes Bild zu verwandeln (z. B. „Nimm dieses Front-/Rückseiten-Bild und mach daraus den Plan").
    3. Phase 3: Erst jetzt lernt er, den speziellen Vorlagen aus Schritt 1 in den perfekten Skin zu verwandeln.
    • Warum so kompliziert? Weil es wie beim Lernen Klavierspielen ist: Erst übst du Tonleitern, dann einfache Lieder, und am Ende spielst du ein Konzert. Wenn du sofort mit dem Konzert beginnst, scheiterst du.

🚀 Warum ist das so toll?

Früher haben KIs versucht, alles in einem Schritt zu machen: „Nimm das Foto und gib mir den Skin." Das war wie zu versuchen, ein Auto zu bauen, indem man alle Werkzeuge gleichzeitig in die Luft wirft. Es ging oft schief.

BLOCK trennt die Aufgaben:

  1. Der Übersetzer kümmert sich darum, wer die Person ist und wie sie aussieht (Semantik).
  2. Der Handwerker kümmert sich darum, wie das in Minecraft-Pixel passt (Struktur).

🎁 Was gibt es am Ende?

Am Ende hast du einen perfekten Minecraft-Skin, den du sofort in das Spiel laden kannst. Er sieht aus wie dein Charakter, passt aber technisch perfekt in das Minecraft-Universum.

Zusammengefasst:
BLOCK ist wie ein zweistufiger Übersetzer, der erst eine klare Skizze macht und dann einen Spezialisten ansetzt, der diese Skizze in ein pixelgenaues Minecraft-Kostüm verwandelt. Das Ergebnis ist, dass du aus fast jedem beliebigen Bild (einem Foto, einem Comic-Charakter, einem Anime) einen funktionierenden Minecraft-Skin machen kannst, ohne dass die KI verrückt spielt.

Die Forscher haben diesen Prozess als Open Source veröffentlicht, damit jeder diesen „Übersetzer" und „Handwerker" nutzen kann, um seine eigenen Minecraft-Charaktere zu erschaffen.