BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

O artigo apresenta o BLOCK, um pipeline de código aberto em duas etapas que utiliza um modelo multimodal grande e uma adaptação progressiva do FLUX.2 para gerar skins pixel-perfect do Minecraft a partir de conceitos de personagens arbitrários.

Hengquan Guo

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer criar um personagem para o jogo Minecraft, mas em vez de desenhar pixel por pixel (o que é muito difícil e chato), você apenas mostra uma foto do personagem que você imagina (pode ser um desenho, uma foto real ou um personagem de anime). O problema é que o Minecraft não aceita fotos; ele precisa de um "mapa de pele" (um arquivo quadrado de 64x64 pixels) que, quando colado em um boneco 3D, faça o personagem parecer exatamente como você quer.

Fazer isso diretamente é como tentar transformar uma foto de um carro em um desenho técnico de peças de Lego sem errar nenhum parafuso. A maioria das inteligências artificiais atuais falha nisso: elas ou desenham o personagem errado, ou criam uma "pele" que o jogo não consegue usar.

O artigo BLOCK apresenta uma solução inteligente que divide esse trabalho difícil em duas etapas, como se fosse uma linha de montagem de fábrica:

1. A Grande Ideia: Não faça tudo de uma vez!

Em vez de pedir para uma única IA fazer a mágica de "Foto → Pele do Minecraft" (o que costuma dar errado), os criadores do BLOCK dividiram o problema em duas partes menores e mais fáceis de resolver.

Etapa 1: O "Tradutor de Estilo" (O MLLM)

Imagine que você tem um artista muito talentoso, mas que só sabe desenhar em um estilo específico: o estilo "Minecraft".

  • O que ele faz: Você mostra a foto do seu personagem e diz: "Desenhe esse cara, mas em estilo Minecraft, mostrando a frente e as costas, em pé, com o fundo branco".
  • A mágica: A IA (neste caso, uma chamada Gemini Nano Banana Pro) pega a foto bagunçada e cria um rascunho perfeito. Ela organiza o personagem, coloca a frente de um lado e as costas do outro, e garante que ele esteja na pose correta do jogo.
  • Analogia: É como se você mostrasse uma foto de um amigo para um desenhista e ele dissesse: "Ok, vou desenhar ele em um papel de caderno, com a frente e as costas, bem alinhado, pronto para ser usado como molde".

Etapa 2: O "Desenrolador de Mapa" (O Modelo Flux.2)

Agora que temos esse rascunho perfeito (o "preview"), precisamos transformá-lo no arquivo final de pele do jogo.

  • O que ele faz: Ele pega o desenho da Etapa 1 e o "desenrola" como se fosse uma caixa de papelão sendo aberta. Ele transforma a imagem 3D (frente e costas) em um mapa plano (a textura UV).
  • A mágica: Como a IA já sabe exatamente como é o estilo Minecraft (graças a um treinamento especial), ela consegue colocar cada detalhe no quadrado exato da pele do jogo, garantindo que a cabeça fique na cabeça, o braço no braço, etc.
  • Analogia: É como pegar um mapa de um tesouro desenhado em uma bola de papel e transformá-lo em um mapa plano de papel, garantindo que o "X" que marca o tesouro não fique torto.

O Segredo do Treinamento: "EvolveLoRA" (A Escada de Aprendizado)

Para treinar a IA da Etapa 2, os autores não jogaram ela direto no problema difícil. Eles usaram uma técnica chamada EvolveLoRA, que é como um sistema de nível de videogame:

  1. Nível 1 (Fácil): A IA aprende apenas a ler descrições de texto e criar peles básicas (ex: "pele com camisa vermelha"). Ela aprende o básico do estilo Minecraft.
  2. Nível 2 (Médio): A IA aprende a pegar uma imagem de frente e costas e transformá-la em pele. Ela já sabe o estilo, agora aprende a "desenrolar" o mapa.
  3. Nível 3 (Difícil): A IA pega o "rascunho" feito na Etapa 1 (que é um pouco diferente das imagens de treino) e transforma na pele final.

Ao fazer isso, a IA não começa do zero em cada etapa. Ela "herda" o conhecimento da etapa anterior, como se um aluno que já sabe matemática básica fosse aprender cálculo, em vez de ter que reaprender a somar. Isso torna o processo muito mais estável e eficiente.

Por que isso é importante?

  • Aberto para todos: O projeto é "open-source", o que significa que qualquer pessoa pode baixar, usar e melhorar.
  • Precisão: Ele garante que a pele gerada funcione no jogo (não sai "quebrada" ou com partes trocadas).
  • Flexibilidade: Você pode usar qualquer conceito de personagem, desde um humano real até um monstro de anime, e o sistema tenta transformá-lo em uma pele de Minecraft válida.

Resumo em uma frase

O BLOCK é como uma fábrica de roupas onde, em vez de tentar costurar o vestido final direto da foto do cliente, primeiro um designer cria um molde perfeito em papel (Etapa 1) e, só depois, uma máquina especializada corta e costura o tecido exatamente nesse molde (Etapa 2), garantindo que a roupa fique perfeita e caiba no manequim do Minecraft.