BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

本文介绍了开源项目 BLOCK,这是一个利用大语言模型生成 3D 预览图并结合微调 FLUX.2 模型进行解码的双阶段管道,通过创新的 EvolveLoRA 渐进式训练策略,实现了从任意角色概念到像素级 Minecraft 皮肤的高效、稳定生成。

Hengquan Guo

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BLOCK 的开源项目,它的核心任务非常有趣:把任何你喜欢的角色(比如照片、动漫图、甚至你脑子里的想法),变成《我的世界》(Minecraft)里那种像素风格的皮肤。

为了让你更容易理解,我们可以把整个过程想象成**“把一张复杂的时尚杂志封面,变成乐高积木的拼装说明书”**。

1. 为什么这很难?(痛点)

想象一下,你手里有一张科比·布莱恩特(Kobe Bryant)的精美照片。你想让电脑把它变成《我的世界》里的皮肤。

  • 直接做很难: 现在的超级 AI(大模型)虽然很聪明,能看懂照片,但它们不擅长“受约束”的工作。就像让一个画家直接画乐高说明书,他可能会把衣服画得太细腻(像素不够用),或者把前后视图搞反,甚至画出一堆在《我的世界》里根本不存在的花纹。
  • 结果: 直接生成的皮肤往往是一团乱麻,要么看不清,要么根本没法在《我的世界》里穿。

2. BLOCK 的解决方案:两步走策略

为了解决这个问题,BLOCK 没有试图让一个 AI 一次性搞定所有事,而是把它拆成了两个阶段,就像是一个**“翻译官”和一个“绘图员”**的配合。

第一阶段:翻译官(Character → 3D 预览)

  • 角色: 这是一个强大的多模态 AI(论文里用的是 Gemini Nano Banana Pro)。
  • 任务: 它的工作不是直接画皮肤,而是**“画草图”**。
  • 怎么做: 你给它一张科比的照片,它会非常听话地画出一张**“标准作业图”**。这张图有两个特点:
    1. 双视图: 左边是正面,右边是背面,就像裁缝店里的模特展示图。
    2. 标准化: 它会把科比摆成《我的世界》里那种标准的“站立姿势”(手垂下,腿并拢),背景是纯白的。
  • 比喻: 这就像是你把一张随意的街拍照片,交给一位专业的服装设计师。设计师不直接做衣服,而是先画出一张标准的、前后分开的、姿势统一的“设计草图”。这张草图去掉了所有杂乱的背景,只保留了衣服和身体的核心特征。

第二阶段:绘图员(Preview → 皮肤贴图)

  • 角色: 这是一个经过特殊训练的 AI 模型(基于 FLUX.2)。
  • 任务: 把第一阶段的“标准草图”,变成真正的**“乐高说明书”**(也就是 64x64 像素的皮肤贴图)。
  • 怎么做: 这个 AI 专门学过怎么把“设计图”翻译成“像素块”。它看着草图,然后精准地把每一块颜色填到对应的 64x64 网格上(头、身体、手臂、腿)。
  • 比喻: 这就像是一位乐高大师,看着设计师画好的标准草图,熟练地把成千上万个小积木块(像素)拼好,最后变成一张可以贴在《我的世界》角色身上的“皮肤纸”。

3. 核心黑科技:EvolveLoRA(像练级一样的训练法)

为了让第二阶段的“绘图员”AI 变得超级厉害,作者没有让它直接上手硬啃最难的任务,而是设计了一个**“循序渐进的练级课程”**,叫 EvolveLoRA

  • 第一关(文字转图片): 先让 AI 看一些简单的描述(比如“红色上衣,蓝色裤子”),学会画基本的皮肤。这就像让新手先临摹简单的线条画。
  • 第二关(图片转图片): 让 AI 看着标准的“前后视图”画皮肤。这就像让新手看着标准的模特图开始上色。
  • 第三关(预览转皮肤): 最后,让 AI 看着第一阶段生成的“标准草图”画皮肤。这时候,它已经具备了前两步的经验,所以能更稳定、更准确地完成最终任务。
  • 比喻: 这就像教一个人做蛋糕。
    • 先让他学认面粉和糖(文字转图片);
    • 再让他学照着食谱做基础蛋糕(图片转图片);
    • 最后才让他根据现场情况做复杂的定制蛋糕(预览转皮肤)。
    • 如果不分步走,直接让他做定制蛋糕,他可能会把面粉和糖搞混,蛋糕就塌了。

4. 为什么这个设计很聪明?

  • 分工明确: 让擅长“理解”的 AI 去处理复杂的角色特征,让擅长“精准执行”的 AI 去处理像素网格。
  • 解决“水土不服”: 直接让 AI 从照片变皮肤,就像让一个习惯画油画的人突然去画像素画,很容易出错。BLOCK 先画一张“标准草图”,相当于给 AI 铺了一条平坦的路。
  • 开源与免费: 作者把这套方法、提示词(Prompt)和训练好的模型都公开了,任何人都可以用。

总结

BLOCK 就像一个智能皮肤工厂

  1. 前台接待(Stage 1): 把千奇百怪的客户照片,整理成标准的“设计单”。
  2. 生产车间(Stage 2): 拿着标准设计单,用特殊的“像素积木”精准地拼出皮肤。
  3. 培训体系(EvolveLoRA): 确保车间里的工人是经过严格、分阶段训练出来的,保证拼出来的皮肤既好看,又符合《我的世界》的规则。

这就解决了以前“想给《我的世界》角色换皮肤,但 AI 总是画得一团糟”的难题,让任何人都能轻松拥有像素完美的专属皮肤。