InstructHumans: Editing Animated 3D Human Textures with Instructions

El artículo presenta InstructHumans, un marco innovador que permite la edición de texturas 3D de humanos animables mediante instrucciones, utilizando una versión modificada del muestreo de distilación de puntuación (SDS-E) para lograr cambios fieles al texto sin comprometer la consistencia con el avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un maniquí digital 3D perfecto, con su propia ropa, cara y postura. Ahora, imagina que quieres cambiarle el estilo: "Ponle un traje de payaso" o "Vístelo con un kimono japonés".

El problema es que, hasta ahora, las herramientas para hacer esto en 3D eran como intentar pintar un cuadro sobre un lienzo que ya tiene pintura seca: o arruinabas la cara original, o la ropa se veía borrosa y extraña, o el personaje perdía su identidad y se convertía en alguien completamente diferente.

Aquí es donde entra InstructHumans, la nueva herramienta presentada en este artículo. Vamos a desglosarlo con analogías sencillas:

1. El Problema: El "Chef" que arruina la receta

Antes, los científicos usaban una técnica llamada SDS (muestreo de destilación de puntuación). Imagina que SDS es un chef muy talentoso pero un poco loco que solo sabe cocinar desde cero.

  • Si le pides "hazme un pastel de chocolate", el chef crea uno desde cero. ¡Genial!
  • Pero si le pides "cambia el relleno de este pastel de fresa por chocolate" (edición), el chef loco no entiende que debe guardar la masa y la forma del pastel original. En su lugar, destruye el pastel viejo y hace uno nuevo, pero a veces sale un poco borroso o se parece más a un bizcocho que a un pastel.

El resultado: Los avatares 3D editados se veían borrosos, perdían sus rasgos faciales o la ropa cambiaba de forma extraña.

2. La Solución: SDS-E (El Chef "Edición")

Los autores crearon una versión mejorada llamada SDS-E (Score Distillation Sampling for Editing).

  • La analogía del reloj: Imagina que editar un avatar es como restaurar una casa antigua.
    • Al principio (los "pasos grandes" del reloj), no debes tocar los cimientos ni la estructura, solo limpiar la fachada.
    • Al final (los "pasos pequeños"), es cuando pintas los detalles finos y arreglas las grietas.
  • El truco de SDS-E: Esta nueva herramienta sabe cuándo aplicar cada tipo de instrucción. No usa todas las herramientas del chef al mismo tiempo.
    • En las etapas tempranas, ignora las instrucciones que podrían destruir la estructura original (como la cara o la forma del cuerpo).
    • En las etapas finales, se enfoca en los detalles finos para que el kimono o el maquillaje se vean nítidos.
    • Resultado: El avatar mantiene su identidad (es el mismo "tú" o "él"), pero con la nueva ropa o estilo que pediste.

3. El Secreto: El "Foco Inteligente" y la "Suavidad"

Para que esto funcione perfectamente, el sistema tiene dos superpoderes adicionales:

  • Muestreo de vista consciente del gradiente (El Foco Inteligente):
    Imagina que tienes que pintar un mural gigante. Si pintas todo el mural con la misma intensidad, tardarás mucho y quizás no le des importancia a la parte más difícil (como la cara).

    • InstructHumans es como un pintor inteligente que sabe: "¡Oye, el usuario pidió 'póntelo un kimono', así que debo concentrar mis pinceladas en el cuerpo y no tanto en la cara!".
    • El sistema calcula automáticamente en qué partes del cuerpo se necesita más trabajo y dedica más tiempo a pintar esas zonas, ahorrando tiempo y mejorando la calidad.
  • Regularización de suavidad (El Alisador de arrugas):
    A veces, al editar, la textura de la piel o la ropa puede quedar con "puntos" o ruido, como una foto pixelada.

    • El sistema añade un alisador mágico que asegura que los colores y las texturas fluyan suavemente entre sí, como si estuvieras alisando una sábana, evitando que la piel del avatar parezca un mapa de puntos extraños.

4. ¿Qué logramos con esto?

Gracias a InstructHumans:

  • Mantiene la identidad: Si le dices "ponle gafas de sol" a tu amigo digital, seguirá siendo tu amigo, solo que con gafas. No se convertirá en un extraño.
  • Es animable: A diferencia de otros métodos que crean estatuas estáticas, este avatar sigue pudiendo bailar, caminar y moverse sin que la ropa se deforme de forma extraña.
  • Es preciso: Puedes pedirle cosas específicas como "hazlo parecer una estatua de bronce" o "cámbiale el pelo a rosa", y el resultado será realista y fiel a tu petición.

En resumen

Este paper presenta una herramienta que actúa como un editor de fotos profesional, pero para el mundo 3D. En lugar de borrar y volver a crear, sabe exactamente qué partes tocar y cuáles dejar intactas, usando un "reloj" inteligente para aplicar los cambios en el momento justo y un "foco" que sabe dónde concentrar sus esfuerzos.

El resultado es que puedes darle a cualquier personaje digital instrucciones simples como "vístelo de payaso" y obtendrás un resultado de alta calidad, nítido y que sigue pareciendo el mismo personaje original. ¡Es como tener un mago digital que cumple tus deseos sin romper la realidad!