Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Este artículo presenta un nuevo modelo de cámara que incorpora un efecto pseudo-perspectiva mediante un parámetro de contracción para mejorar la regresión de modelos 3DMM monocular en imágenes de primer plano, manteniendo la estabilidad de la proyección ortográfica tradicional.

Toby Chong, Ryota Nakajima

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres crear un avatar 3D de tu cara para un videojuego o una película, pero solo tienes una foto normal tomada con tu celular. El problema es que las cámaras de los celulares (y las que llevamos en la cabeza para grabar videos) tienen un "efecto de lente" que hace que las cosas cercanas se vean más grandes y las lejanas más pequeñas. A esto le llamamos distorsión de perspectiva.

Los métodos antiguos para crear estos avatares funcionaban como si la cámara fuera un "proyector de diapositivas" perfecto: todo se veía del mismo tamaño, sin importar si estaba cerca o lejos. Esto funcionaba bien para fotos de estudio, pero cuando intentaban recrear una selfie o un video muy cercano, el resultado era extraño: la nariz se veía diminuta y la mandíbula flotaba en el aire, como si la cara fuera un globo desinflado.

Aquí es donde entra este nuevo trabajo de Toby Chong y Ryota Nakajima. Vamos a explicarlo con una analogía sencilla:

1. El Problema: La "Cámara Mágica" vs. La Realidad

Imagina que tienes una cámara mágica (los métodos antiguos) que ignora la profundidad. Si te acercas mucho a la lente, la cámara mágica sigue dibujando tu cara como si estuvieras a un metro de distancia.

  • Resultado: Tu nariz, que está muy cerca de la lente, debería verse gigante, pero la cámara mágica la dibuja pequeña. Tu frente, que está más lejos, se ve igual que la nariz. ¡El resultado es una cara de dibujos animados con la nariz de un bebé y una frente de gigante!

2. La Solución: El "Botón de Ajuste" (El Parámetro ρ\rho)

Los autores dicen: "¿Y si no cambiamos toda la cámara, sino que le añadimos un pequeño botón de ajuste?"

En lugar de intentar adivinar exactamente qué lente usó la cámara y a qué distancia estaba (lo cual es como intentar adivinar cuánta sal hay en una sopa sin probarla), ellos añadieron un parámetro de "encogimiento" (llamado ρ\rho).

  • La analogía del globo: Imagina que la cara 3D es un globo.
    • Con el método antiguo (proyección ortogonal), el globo se ve igual de grande desde cualquier ángulo.
    • Con su nuevo método, el globo tiene un elástico invisible. Cuando la nariz está muy cerca de la cámara, el elástico se estira y la hace parecer más grande. Cuando la frente está lejos, el elástico se relaja.
    • Este "botón" se puede aprender automáticamente. Es como enseñarle a la computadora a decir: "¡Oye, esta foto es un primer plano, así que vamos a estirar un poco la nariz!".

3. ¿Cómo lo hicieron? (El Entrenamiento)

No tuvieron que reinventar la rueda. Tomaron modelos de inteligencia artificial que ya eran muy buenos (llamados SMIRK, DECA, etc.) y les dieron un curso de especialización usando un dataset nuevo que ellos mismos crearon: HMC1M.

  • El Dataset HMC1M: Imagina que grabaron a 200 actores con cámaras pegadas a sus cabezas (como las que usan los vloggers o los actores de realidad virtual). Estas fotos son extremadamente cercanas, donde la distorsión es muy fuerte.
  • El Truco del Enmascaramiento: Al entrenar, les dijeron a la IA: "No mires el borde de la cara ni la punta de la nariz al principio, porque ahí es donde la IA se confunde más. Enfócate en el resto y luego ajusta esos detalles". Es como pintar un cuadro: primero haces el boceto general y luego corriges los detalles difíciles al final.

4. Los Resultados: ¿Funcionó?

¡Sí! Y aquí está la magia:

  • En fotos de cerca (Selfies y cámaras en la cabeza): La nariz ahora se ve del tamaño correcto, la mandíbula se asienta bien y la cara no parece un globo. La IA entendió que "cerca = grande".
  • En fotos normales (de lejos): El nuevo botón se queda en "cero" (o casi cero), por lo que la IA sigue funcionando igual de bien que antes. No rompió nada.

En resumen

Este paper es como si le dieras a un pintor que solo sabe pintar retratos planos (2D) un lente de aumento inteligente. Ahora, cuando el pintor ve una foto muy cercana, el lente le dice: "¡Ojo! La nariz está muy cerca, hazla más grande".

Gracias a este pequeño ajuste, podemos crear avatares 3D mucho más realistas para videos de TikTok, realidad virtual o películas, sin necesidad de tener cámaras de cine costosas o escáneres 3D complejos. ¡Es una mejora simple pero que cambia el juego para las fotos cercanas!