SAM 3D Body: Robust Full-Body Human Mesh Recovery

O artigo apresenta o SAM 3D Body (3DB), um modelo promptável de código aberto que alcança o estado da arte na recuperação de malhas 3D de corpos humanos completos a partir de imagens únicas, introduzindo a nova representação paramétrica Momentum Human Rig (MHR) e demonstrando robustez e generalização superiores em condições diversas.

Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando tirar uma foto de alguém fazendo uma acrobacia complexa, com os braços cruzados e as pernas em uma posição difícil. Agora, imagine que você quer transformar essa foto 2D (plana) em um boneco 3D (tridimensional) que se move exatamente como a pessoa na foto.

Isso é o que o SAM 3D Body faz, e é exatamente isso que este novo artigo da Meta descreve. Vamos descomplicar como eles fizeram isso usando algumas analogias do dia a dia.

1. O Problema: O "Boneco de Palito" Triste

Antes, os computadores eram como crianças aprendendo a desenhar. Eles conseguiam desenhar um boneco de palito básico quando a pessoa estava de frente, com os braços para baixo. Mas, se a pessoa estivesse de costas, com as mãos escondidas ou fazendo uma pose estranha, o computador ficava confuso. O "boneco" ficava torto, as mãos sumiam ou os dedos se misturavam. Era como tentar adivinhar a forma de um objeto apenas olhando para a sua sombra.

2. A Solução: O "Mestre de Cerimônias" (O Modelo 3DB)

Os pesquisadores criaram um novo modelo chamado SAM 3D Body. Pense nele como um mestre de cerimônias superinteligente que organiza uma festa de reconstrução 3D.

  • Ele é "Promptável" (Pode ser orientado): Assim como você pode pedir ao Google "me mostre fotos de cachorros" e ele obedece, você pode dar dicas ao SAM 3D Body. Se você apontar para a mão na foto ou desenhar um círculo ao redor da pessoa, o modelo diz: "Ah, entendi! Vou focar nisso". Ele usa essas dicas para não se perder em cenas confusas.
  • Dois Cérebros, Uma Missão: O modelo tem uma arquitetura especial. Imagine que ele tem um cérebro para o corpo e outro cérebro para as mãos.
    • O cérebro do corpo cuida da postura geral (pernas, tronco).
    • O cérebro das mãos é um especialista em detalhes finos (dedos, articulações).
    • Eles trabalham juntos, mas cada um foca no que faz de melhor, evitando que o corpo "atrapalhe" o desenho das mãos e vice-versa.

3. O Novo "Esqueleto" (MHR)

Antes, os modelos usavam um "esqueleto" antigo (chamado SMPL) que misturava a forma do corpo com a posição dos ossos. Era como tentar vestir um terno que muda de tamanho dependendo de como você se senta.
O SAM 3D Body usa um novo esqueleto chamado Momentum Human Rig (MHR).

  • A Analogia: Pense no MHR como um manequim de loja de roupas. O manequim tem um esqueleto fixo (ossos) e uma "pele" que pode ser ajustada (gordura, músculos, altura). O modelo consegue separar o que é "ossos" do que é "corpo", permitindo criar pessoas mais realistas e com formas variadas sem que o esqueleto fique quebrado.

4. A Fábrica de Dados (O "Treinador" Rigoroso)

Para um modelo de IA ficar bom, ele precisa ver milhões de exemplos. O problema é que a maioria das fotos na internet é "fácil" (pessoas de frente, bem iluminadas).

  • O Motor de Dados: Os autores criaram um "robô detetive" (usando Inteligência Artificial) que vasculha milhões de fotos na internet procurando especificamente as pioras situações possíveis: pessoas escondidas, luz ruim, poses de dança difíceis, pessoas de costas.
  • A Anotação: Em vez de apenas pegar fotos aleatórias, eles usam um processo de várias etapas para "desenhar" o esqueleto 3D perfeito em cima dessas fotos difíceis. É como ter um time de artistas que revisam o trabalho do robô para garantir que cada dedo e cada joelho estejam no lugar certo antes de ensinar o modelo.

5. O Resultado: O "Efeito Uau"

Quando eles testaram esse novo modelo:

  • Precisão: Ele acertou poses que os outros modelos erravam feio (como alguém fazendo yoga ou correndo).
  • Mãos e Pés: Ele conseguiu desenhar as mãos com uma precisão que antes só modelos especializados em mãos conseguiam, mas agora fazendo o corpo inteiro ao mesmo tempo.
  • Aprovado pelo Público: Eles mostraram vídeos de pessoas reais e pediram para 7.800 pessoas escolherem qual reconstrução 3D parecia mais real. O SAM 3D Body venceu em 5 para 1 contra os melhores concorrentes. As pessoas preferiam o boneco 3D deles porque parecia mais "vivo" e menos "robótico".

Resumo em uma frase

O SAM 3D Body é como um artista 3D superdotado que, ao ver uma foto, consegue imaginar e construir um boneco 3D perfeito, mesmo que a pessoa na foto esteja fazendo uma pose impossível, escondendo as mãos ou com a luz ruim, tudo isso porque ele foi treinado com um "livro de instruções" gigante feito de fotos difíceis e anotadas com cuidado extremo.

E o melhor? Eles liberaram o código e o modelo para que qualquer pessoa possa usar e criar suas próprias animações 3D a partir de fotos!

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →