SAM 3D Body: Robust Full-Body Human Mesh Recovery

El artículo presenta SAM 3D Body, un modelo de código abierto que utiliza la nueva representación de malla Momentum Human Rig (MHR) y un enfoque basado en prompts para lograr un estado del arte en la recuperación de mallas humanas 3D completas a partir de una sola imagen, superando a métodos anteriores en generalización y precisión en condiciones diversas.

Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

Publicado 2026-02-19
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes una foto de una persona haciendo una pose loca, quizás bailando, cayendo de una bicicleta o con las manos muy cerca de la cara. Ahora, imagina que quieres crear un "dúo" digital exacto de esa persona en 3D, con todos sus huesos y músculos moviéndose igual.

Hasta ahora, las computadoras se volvían locas intentando hacer esto. Si la pose era rara o la persona estaba tapada por algo, el modelo 3D salía deformado, como un payaso de circo.

Este nuevo trabajo, llamado SAM 3D Body, es como si le hubieran dado a la computadora un "superpoder" para entender el cuerpo humano, incluso en las situaciones más caóticas. Aquí te explico cómo funciona, usando analogías sencillas:

1. El "Artesano" vs. El "Mecánico" (El Nuevo Modelo MHR)

Antes, los modelos 3D usaban un "esqueleto" rígido donde la forma del cuerpo y la posición de los huesos estaban mezcladas. Era como intentar arreglar un coche cambiando el motor y la pintura al mismo tiempo; si te equivocabas en uno, arruinabas el otro.

Los autores crearon algo nuevo llamado MHR (Momentum Human Rig). Imagina que es como un maniquí de modas de alta tecnología:

  • Tiene un esqueleto interno (los huesos) que se mueve libremente.
  • Tiene una piel externa (la forma del cuerpo) que se ajusta a la persona (gorda, delgada, musculosa).
  • La magia: Separa la "estructura" de la "forma". Esto permite que el modelo entienda que una persona puede estar haciendo una postura difícil (esqueleto) sin importar si es muy alta o muy baja (forma).

2. El "Director de Orquesta" con Mochila (La Arquitectura del Modelo)

La mayoría de los modelos anteriores intentaban adivinar todo el cuerpo y las manos de una sola vez, como un director de orquesta que intenta tocar el violín y la batería al mismo tiempo. A menudo, se confundían.

El nuevo modelo SAM 3D Body tiene un diseño inteligente:

  • Un solo cerebro (Codificador): Mira la foto y entiende la escena.
  • Dos manos especializadas (Decodificadores):
    • Una mano se encarga del cuerpo completo (piernas, torso, cabeza).
    • La otra mano es un experto en manos que se enfoca solo en los dedos y las muñecas.
  • La ventaja: Al tener un "experto en manos" dedicado, el modelo no se olvida de los detalles finos (como los dedos) cuando está mirando el cuerpo entero. Es como tener un arquitecto general y un especialista en ventanas trabajando juntos en la misma casa.

3. El "Detective de Datos" (El Motor de Datos)

Para que una IA sea buena, necesita ver millones de fotos. Pero las fotos de laboratorio son aburridas: siempre la misma pose, buena luz, fondo blanco. El mundo real es caótico: gente bajo la lluvia, gente haciendo acrobacias, gente tapada por otros.

Los autores crearon un "Motor de Datos" impulsado por una IA más pequeña (un VLM) que actúa como un detective:

  • Este detective revisa millones de fotos y busca específicamente las "fotos difíciles": las que tienen poses raras, mucha oscuridad o gente superpuesta.
  • En lugar de ignorarlas, las selecciona para que humanos expertos las etiqueten cuidadosamente.
  • Resultado: El modelo se entrena con los "casos más difíciles" desde el principio, por lo que cuando ve una foto nueva y rara, no se asusta.

4. El "Asistente con Pistas" (Promptable)

Una de las cosas más geniales es que este modelo es "promptable" (puede recibir pistas).
Imagina que le das una foto a un dibujante y le dices: "Dibuja a esta persona, pero fíjate que su mano está aquí".

  • Si tú (o una app) le das al modelo un punto en la foto donde está la mano, o un recuadro alrededor de la persona, el modelo usa esa pista para ajustar su dibujo 3D.
  • Es como si pudieras decirle a la computadora: "Oye, aquí hay un codo, asegúrate de que el brazo vaya hacia allá". Esto ayuda muchísimo cuando la foto es confusa.

¿Por qué es importante esto?

Hasta ahora, si querías un avatar 3D para un videojuego o para que un robot entienda cómo moverse entre personas, tenías que usar fotos muy controladas. Con SAM 3D Body:

  • Puedes tomar una foto cualquiera de tu teléfono (incluso si la persona está sentada en el suelo o haciendo yoga).
  • El modelo crea un esqueleto 3D increíblemente preciso, incluyendo los dedos de las manos.
  • Funciona tan bien que, en pruebas con miles de personas, la gente prefirió sus resultados sobre los de otros modelos famosos 5 veces más a 1.

En resumen: Han creado un sistema que combina un nuevo "esqueleto" flexible, dos expertos especializados (uno para el cuerpo y otro para las manos) y un detective que busca las fotos más difíciles para entrenarse. El resultado es un modelo que entiende el cuerpo humano en el mundo real, no solo en el laboratorio.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →