Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we gezichten in 3D beter laten lijken op de echte wereld (zelfs van heel dichtbij)

Stel je voor dat je een poppetje van klei hebt dat precies een menselijk gezicht nabootst. Dit heet in de tech-wereld een "3DMM" (een 3D Morphable Model). Kunstenaars en computers gebruiken dit om gezichten in films, games of apps tot leven te brengen.

Het probleem? De meeste computers die deze poppetjes maken, kijken naar foto's alsof ze door een flatscreen kijken. Ze vergeten dat de wereld eigenlijk een lens heeft.

Hier is wat deze paper doet, vertaald naar alledaags taal:

1. Het probleem: De "Vlinder-effect" vs. De "Nose-bleed"

Stel je voor dat je een foto maakt van iemand met je telefoon.

Van veraf: Als je iemand van ver fotografeert, ziet hun neus er normaal uit.
Van heel dichtbij (een selfie): Als je de camera heel dicht bij het gezicht houdt, gebeurt er iets vreemds: de neus lijkt groot en de oren lijken klein. Dit heet perspectief.

De oude computerprogramma's voor 3D-gezichten wisten dit niet. Ze gebruikten een simpele regel: "Alles is even groot, ongeacht de afstand."
Dit leidde tot grappige fouten:

Bij close-ups (zoals selfies of camera's op een helm) zagen de neuzen eruit als kleine stipjes.
De kaaklijn leek te zweven.
Het hoofd leek alsof het een "expanderend brein" had (de bovenkant van het hoofd leek te groot).

Het was alsof je een poppetje probeerde te maken dat op een foto leek, maar de poppetjes neus was te klein omdat de computer dacht: "Oh, die neus is ver weg, dus hij moet klein zijn," terwijl hij in werkelijkheid juist heel dichtbij was.

2. De oplossing: Een nieuwe "zoom-knop"

De auteurs van dit paper (van Toei Company in Tokio) hebben een slimme truc bedacht. Ze hebben niet het hele systeem vervangen (dat zou te duur en te complex zijn), maar ze hebben een nieuwe knop toegevoegd aan het bestaande systeem.

Ze noemen dit de "Shrinkage Parameter" (een krimp-parameter). Laten we het een "Dichtbij-gevoel" noemen.

Hoe het werkt: Stel je voor dat je een oude radio hebt die alleen FM kan ontvangen. Je kunt hem niet zomaar in een nieuwe radio veranderen. Maar wat als je een klein, losse antenne erop plakt die het signaal verbetert?
In dit geval plakken ze een extra laagje op de bestaande software. Deze laag leert de computer: "Hey, als de neus groot is in de foto, is de persoon waarschijnlijk heel dichtbij. Maak de neus in het 3D-model dus ook groter."

3. De "Hoofdtelefoon" test

Om te bewijzen dat dit werkt, hebben ze een speciale dataset gemaakt. Ze hebben acteurs een camera op hun hoofd laten dragen (zoals een GoPro, maar dan voor gezichten).

Dit zijn extreme close-ups.
De neus staat vaak 15 tot 30 centimeter van de lens.
Hier is het perspectief-effect enorm.

Toen ze hun nieuwe methode op deze beelden testten, zagen ze een groot verschil:

De oude methode: De neus was een klein stipje, de kaaklijn zweefde.
De nieuwe methode: De neus had de juiste grootte, de kaaklijn zat waar hij moest zitten. Het leek eindelijk op een echt mens.

4. Waarom is dit zo handig?

Het mooie aan deze ontdekking is dat je geen hele nieuwe computerprogrammatuur hoeft te schrijven.

Je kunt bestaande, populaire programma's (zoals SMIRK of DECA) nemen.
Je voegt deze ene "dichtbij-knop" toe.
Je laat het programma even "leren" met de nieuwe beelden.
Resultaat: Je hebt een supersterk 3D-systeem dat zowel ver weg als heel dichtbij perfect werkt, zonder dat je alles opnieuw hoeft te bouwen.

Samenvatting in één zin:

De auteurs hebben een slimme "tussenschakel" gevonden die bestaande 3D-gezichtssoftware leert om de vervorming van een camera te begrijpen, zodat neuzen in close-ups niet meer verdwijnen, maar eindelijk hun juiste, grote formaat krijgen.

Het is alsof je een bril opzet voor een computer die al jarenlang "korte zicht" had; plotseling ziet de computer de wereld weer zoals hij er echt uitziet.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Revisiting an Old Perspective: Projection for Monocular 3D Morphable Models Regression" in het Nederlands.

Probleemstelling

Het aanpassen van 3D Morphable Models (3DMM) aan monokulaire beelden is een kerntechniek voor contentcreatie. Bestaande regressie-methoden (zoals DECA, EMOCA, SMIRK) vertrouwen doorgaans op orthogonale projectie om de 3DMM-parameters direct uit beeldfeatures te voorspellen.

De beperking: Orthogonale projectie negeert perspectiefdistorsie. Dit vereenvoudigt het trainen door de ambiguïteit tussen brandpuntsafstand ( $f$ ) en objectafstand ( $t_z$ ) te elimineren.
Het gevolg: Bij close-up beelden (bijvoorbeeld opgenomen met head-mounted cameras of selfies) ontstaan ongewenste artefacten. De neus wordt vaak te klein gereconstrueerd (omdat deze het dichtst bij de camera staat en in werkelijkheid groter zou moeten lijken door perspectief), en het gezichtsvlak vertoont een "uitdijend brein"-effect waarbij de bovenrand van het hoofd onrealistisch naar buiten buigt.
De uitdaging: Het direct regresseren van zowel brandpuntsafstand als diepte is moeilijk vanwege de onderlinge afhankelijkheid en het gebrek aan ground truth, wat heeft geleid tot de standaardisatie van orthogonale projectie.

Methodologie

De auteurs introduceren een nieuwe camera-modellering die de orthogonaliteit behoudt maar een pseudo-perspectief effect toevoegt via een leerbaar parameter.

Pseudo-Perspectief Camera Model:
- In plaats van volledige perspectiefprojectie (waarbij $u = f \cdot v_x / v_z$ ), wordt de orthogonale projectie uitgebreid met een krimp-parameter ( $\rho$ ).
- De projectievergelijking wordt:
  $\begin{pmatrix} u \\ v \end{pmatrix} = \begin{pmatrix} S\frac {v_x}{1+\rho v_z}\\ S\frac {v_y}{1+\rho v_z} \end{pmatrix}$
- Wanneer $\rho = 0$ , is het equivalent aan orthogonale projectie. Naarmate $\rho$ toeneemt, wordt het effect meer perspectiefachtig.
- Voordeel: Deze parameter isoleert het krimp-effect van perspectief, waardoor het netwerk dit effect kan leren zonder de complexe koppeling tussen $f$ en $t_z$ direct te hoeven voorspellen.
Finetuning-strategie:
- Bestaande modellen (getraind met orthogonale projectie) worden gefinetuned om $\rho$ te voorspellen via een eenvoudige lineaire laag met een sigmoid-activatie.
- Prior: Om de training te stabiliseren, wordt een prior ( $\rho_{prior}$ ) gebruikt. Voor head-mounted camera data wordt $\rho_{prior} = 4.0$ ingesteld, terwijl voor andere datasets (zoals CelebA) deze op 0.0 blijft.
- Maskering: Om ambiguïteiten rond de neus en de gezichtcontour te vermijden (waar de fouten het grootst zijn), wordt een aangepast masker gebruikt tijdens het trainen. Dit masker verwijdert pixels rond de neus en de buitenrand van het gezicht, zodat de renderer zich richt op de betrouwbare gebieden.
Dataset (HMC1M):
- De auteurs hebben een nieuwe dataset samengesteld genaamd HMC1M (1 miljoen afbeeldingen), opgenomen met head-mounted cameras (15-30 cm afstand). Dit dataset is cruciaal omdat het extreme close-ups bevat waar perspectiefdistorsie dominant is.

Belangrijkste Bijdragen

Nieuw Camera Model: Een uitbreiding van orthogonale projectie met een leerbare krimp-parameter ( $\rho$ ) die perspectiefdistorsie effectief vastlegt zonder de stabiliteit van bestaande regressiemethoden te verliezen.
Backward Compatibility: Een reeks finetuning-technieken die het mogelijk maken om modellen die oorspronkelijk met orthogonale projectie zijn getraind, om te zetten naar dit nieuwe model, zelfs met niet-gekalibreerde beelden.
HMC1M Dataset: Een groot dataset van extreme close-ups opgenomen met head-mounted cameras, specifiek ontworpen om deze problematiek te adresseren.
Aangepaste Maskering: Een techniek om de training te sturen door ambiguïteiten rond de neus en gezichtskontour te elimineren tijdens het finetunen.

Resultaten

De methode is geëvalueerd op zowel kwantitatieve als kwalitatieve criteria:

Kwantitatieve Evaluatie:
- Op de HMC1M dataset behaalde de methode de beste resultaten voor de reconstructie van gezichtspunten (landmarks), met name voor de kaaklijn en het gezicht als geheel.
- Op de NoW Selfie dataset (die ook sterke perspectiefdistorsie bevat) presteerde de methode aanzienlijk beter dan de gefinetuned SMIRK-versie ( $smirkr$ ) en de oorspronkelijke SMIRK ( $smirkp$ ). De foutmarge (reconstruction loss) was lager, wat aangeeft dat de onderliggende geometrie beter wordt hersteld.
- Op datasets met minder distorsie (MEAD, CelebA, FFHQ) was er geen significante degradatie, hoewel de verbetering minder uitgesproken was dan bij close-ups.
Kwalitatieve Evaluatie:
- Visuele Vergelijking: Bij close-ups (HMC1M) elimineert de nieuwe methode de artefacten van de baseline: de neus wordt correct groter weergegeven en het "uitdijend brein"-effect verdwijnt.
- Perceptiestudie: In een crowdsourcing-studie (Amazon Mechanical Turk) prefereerden 44,4% van de respondenten de reconstructie van de auteurs boven de bestaande methoden ( $smirkp$ en $smirkr$ ).
Vergelijking met Volledige Perspectief:
- Het proberen om direct $f$ en $t_z$ te regresseren (in plaats van $\rho$ ) resulteerde in instabiele training en slechte resultaten. De methode met $\rho$ bleek superieur omdat het het perspectief-effect isoleert.

Betekenis en Conclusie

Dit werk toont aan dat het reviseren van de projectiemethode essentieel is voor de kwaliteit van 3D-reconstructies in close-up scenario's. Hoewel orthogonale projectie voldoende is voor standaard "in-the-wild" beelden (die vaak verder weg zijn opgenomen), faalt het bij head-mounted camera's en selfies.

De voorgestelde aanpak biedt een lichtgewicht, backward-compatible oplossing die bestaande state-of-the-art modellen (zoals SMIRK) kan verbeteren zonder de volledige architectuur te hoeven herontwerpen. Dit is van groot belang voor toepassingen in virtuele realiteit, augmented reality en filmproductie, waar nauwkeurige gezichtsvolging op korte afstand cruciaal is. De studie benadrukt dat zelfs kleine aanpassingen in de projectiemodelleer, ondersteund door specifieke datasets, een aanzienlijke impact kunnen hebben op de realisme van 3D-reconstructies.

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

1. Het probleem: De "Vlinder-effect" vs. De "Nose-bleed"

2. De oplossing: Een nieuwe "zoom-knop"

3. De "Hoofdtelefoon" test

4. Waarom is dit zo handig?

Samenvatting in één zin:

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Online Monitoring of Metric Temporal Logic using Sequential Networks

Module checking of pushdown multi-agent systems

Probabilistic Counters for Privacy Preserving Data Aggregation

Homomorphisms of (n,m)-graphs with respect to generalised switch

Agent based decision making for Integrated Air Defense system