PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de reconstruire la carte d'un labyrinthe complexe (une pièce de maison) en regardant seulement une photo panoramique à 360 degrés prise à l'intérieur. C'est le défi de l'estimation de profondeur : dire à l'ordinateur "ce mur est à 3 mètres, ce canapé est à 1 mètre".

Le problème, c'est que les méthodes actuelles sont comme des architectes un peu rigides : elles supposent que toutes les pièces sont des boîtes parfaites (des rectangles avec des angles droits). Mais dans la vraie vie, les pièces sont bizarres, avec des murs courbes, des meubles qui dépassent, ou des formes de triangles. Quand l'ordinateur voit une pièce bizarre, il se trompe souvent.

PAGCNet est une nouvelle méthode intelligente qui agit comme un architecte détective. Voici comment elle fonctionne, étape par étape, avec des analogies simples :

1. Le Détective Multi-Tâches (L'Architecture)

Au lieu de se concentrer uniquement sur la distance, ce système pose quatre questions en même temps à la photo, comme un détective qui observe une scène de crime :

Où sont les murs ? (Estimation de la disposition de la pièce).
Où suis-je ? (Estimation de la position de la caméra).
Qu'est-ce qui est loin ? (Estimation de la profondeur).
Qu'est-ce qui est "normal" et qu'est-ce qui est "bizarre" ? (Segmentation des régions).

C'est comme si le détective ne regardait pas juste la photo, mais qu'il dessinait aussi le plan de la maison, notait sa propre position, et marquait au crayon rouge les zones qui ne respectent pas les règles de la construction standard.

2. Le GPS Intérieur (La Résolution de la Profondeur Arrière-plan)

C'est ici que la magie opère. Souvent, les ordinateurs ne savent pas exactement à quelle hauteur se trouve la caméra par rapport au sol.

L'ancien problème : Les autres méthodes disent "On va supposer que la caméra est à 1,60m". Si vous êtes assis sur un tabouret ou debout sur une chaise, ils se trompent.
La solution PAGCNet : Le système utilise les indices qu'il a trouvés (la hauteur du plafond, la position des murs) pour calculer sa propre hauteur en temps réel. C'est comme si le détective regardait ses pieds et le plafond pour dire : "Ah, je suis en fait à 1,40m du sol, pas 1,60m".
Une fois qu'il sait où il est, il peut dessiner une modèle géométrique parfait des murs, du sol et du plafond pour les zones "normales" de la pièce. C'est sa "boussole géométrique".

3. Le Filtre Intelligent (Le Masque de Fusion)

C'est le point le plus important. Le système sait que son modèle géométrique parfait ne marche que pour les murs "normaux".

Imaginez que vous avez un modèle de pièce parfaite, mais qu'il y a un canapé énorme qui dépasse dans le couloir. Si vous appliquez votre modèle parfait partout, vous allez "écraser" le canapé contre le mur, ce qui est faux.
Le système utilise donc un filtre intelligent (le masque de fusion). Il dit : "Sur cette partie de l'image, je vais utiliser mon modèle géométrique parfait (car c'est un mur normal). Mais sur cette autre partie (le canapé ou la forme bizarre), je vais ignorer mon modèle et me fier uniquement à ce que je vois dans la photo."
C'est comme un chef cuisinier qui utilise une recette parfaite pour le gâteau, mais qui ajuste le sel à la main pour la soupe, selon le goût.

4. La Fusion Finale (L'Adaptation)

Enfin, le système mélange les deux résultats :

La vue "brute" de la photo (qui est parfois floue ou confuse).
Le modèle géométrique "propre" (qui est précis mais ne s'applique qu'aux zones normales).
Grâce au filtre intelligent, il combine les deux pour obtenir une carte de profondeur parfaite là où c'est possible, et réaliste là où c'est bizarre.

Pourquoi est-ce une révolution ?

Les méthodes précédentes étaient comme des moules à gâteaux : si la pièce ne correspondait pas exactement au moule (un rectangle parfait), le gâteau (la reconstruction 3D) était raté.

PAGCNet est comme un sculpteur sur mesure. Il comprend que la pièce peut être irrégulière. Il utilise la géométrie pour corriger les erreurs dans les zones normales, mais il a le bon sens de ne pas forcer la géométrie sur les objets bizarres.

En résumé :
PAGCNet est un système qui apprend à se situer lui-même dans la pièce, à dessiner les murs parfaits des zones normales, et à savoir quand arrêter de dessiner pour laisser place aux objets réels et bizarres. Résultat : une vision 3D des pièces beaucoup plus précise, même dans des maisons aux formes compliquées.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'estimation de profondeur à partir d'une seule image panoramique (omnidirectionnelle) est une tâche fondamentale pour la compréhension 3D des environnements intérieurs. Cependant, les méthodes existantes rencontrent deux défis majeurs :

Distorsion et géométrie complexe : Les images panoramiques (projections équirectangulaires) souffrent de distorsions importantes. De plus, les méthodes actuelles supposent souvent que les pièces suivent une structure "Manhattan" (murs perpendiculaires, sol/plafond horizontaux) et régulières.
Limites des contraintes géométriques : Les approches récentes qui utilisent la structure de la pièce comme contrainte géométrique (comme BGDNet) échouent dans les scènes réelles complexes où :
1. La pièce contient des zones irrégulières (meubles, murs non alignés) qui dépassent le volume défini par le plan de la pièce.
2. La pose de la caméra (hauteur, orientation) est inconnue et ne peut pas être mesurée physiquement lors de la capture.
3. Le modèle de fond (background depth) est mal appliqué aux zones irrégulières, entraînant des artefacts de compression ou d'aplatissement.

2. Méthodologie : PAGCNet

Les auteurs proposent PAGCNet, un cadre d'apprentissage multi-tâches qui estime simultanément la profondeur, la pose de la caméra, la disposition de la pièce (layout) et la segmentation des régions. L'architecture repose sur un encodeur panoramique partagé et quatre décodeurs spécifiques, intégrés à trois composants clés :

A. Architecture de Base

Encodeur : Utilise un backbone basé sur PanoFormer (Transformers avec mécanisme d'attention par fenêtre adapté aux images panoramiques).
Décodeurs :
1. Décodeur de Disposition (Layout) : Prédit la structure de la pièce (murs, sol, plafond).
2. Décodeur de Pose : Estime la hauteur et l'orientation de la caméra.
3. Décodeur de Profondeur : Produit une carte de profondeur initiale (coarse).
4. Décodeur de Segmentation de Région : Génère deux masques binaires :
  - Un masque des régions irrégulières (objets, zones hors structure).
  - Un masque du fond (murs, sol, plafond réguliers).

B. Composant de Résolution de Profondeur de Fond Sensible à la Pose (PA-BDR)

Ce module résout le problème de l'absence de mesure externe de la pose de la caméra :

Optimisation de la hauteur : Il combine la hauteur prédite par le décodeur de pose et une hauteur calculée géométriquement à partir des limites du sol et du plafond (déduites du layout et de la profondeur initiale). La moyenne de ces deux valeurs donne une hauteur de caméra ( $h_c$ ) robuste.
Calcul de la profondeur de fond : En utilisant cette hauteur optimisée et les angles de la géométrie sphérique, le système calcule mathématiquement la profondeur exacte des murs, du sol et du plafond pour les zones régulières, créant ainsi une carte de profondeur de fond ( $S_{back}$ ) précise sans capteur externe.

C. Génération du Masque de Fusion (FMG)

Pour éviter d'appliquer la contrainte géométrique sur les zones irrégulières (ce qui dégraderait l'estimation), ce composant génère un poids de fusion ( $S_{weight}$ ) :

Il combine le masque de segmentation du fond et le masque des régions irrégulières.
Le poids est élevé pour les zones régulières (où la contrainte géométrique doit s'appliquer) et faible pour les zones irrégulières (où la prédiction du décodeur de profondeur doit prévaloir).

D. Composant de Fusion Adaptative

La profondeur finale ( $S_{final}$ ) est obtenue par une fusion pondérée :
$S_{final} = S_{weight} \times S_{back} + (1 - S_{weight}) \times S_{depth\_initial}$
Cela permet d'utiliser la profondeur géométrique calculée comme une limite supérieure stricte pour les zones régulières, tout en préservant les détails des objets et des structures complexes.

3. Contributions Clés

Cadre PAGCNet : Une approche unifiée qui calcule la profondeur de fond des régions régulières pour optimiser adaptativement la prédiction finale, même dans des pièces irrégulières.
Composant PA-BDR : Une méthode innovante pour résoudre la profondeur de fond sans mesure externe de la pose de la caméra, en optimisant la hauteur de la caméra via une combinaison de prédiction et de géométrie.
Mécanisme de Fusion Intelligent : Introduction d'un composant FMG et d'une fusion adaptative qui utilisent la segmentation des régions pour déterminer où et dans quelle mesure la contrainte géométrique doit corriger la prédiction, gérant ainsi efficacement le mélange entre zones régulières et irrégulières.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois ensembles de données majeurs : Matterport3D, Structured3D et Replica.

Performance Quantitative : PAGCNet surpasse significativement les méthodes de l'état de l'art (y compris PanoFormer, EGFormer, BGDNet, DepthAnyDirection).
- Sur Matterport3D, l'erreur quadratique moyenne (RMSE) est de 0.2236 (contre 0.2882 pour le deuxième meilleur).
- Sur Structured3D, le RMSE atteint 0.1935, surpassant largement BGDNet (0.3490).
- Sur Replica, le RMSE est de 0.2101, montrant une nette amélioration par rapport aux méthodes basées sur la fusion de projections multiples.
Analyse Qualitative : Les visualisations 3D montrent que PAGCNet reconstruit mieux la géométrie globale de la pièce (coins, murs) et évite les artefacts d'aplatissement des objets qui dépassent du volume de la pièce, un problème fréquent chez les méthodes précédentes.
Études d'Ablation : Elles confirment que l'amélioration de performance provient principalement des trois composants proposés (PA-BDR, FMG, Fusion Adaptative) plutôt que de l'apprentissage multi-tâches seul.

5. Signification et Impact

Ce travail est significatif car il comble le fossé entre les méthodes théoriques basées sur des hypothèses de pièces régulières et la réalité des environnements intérieurs complexes.

Généralisation : En découplant les zones régulières (contraintes géométriquement) des zones irrégulières (estimées par apprentissage profond), le modèle devient beaucoup plus robuste aux architectures de bâtiments non standards.
Indépendance aux Capteurs : La capacité à estimer la pose de la caméra et la profondeur de fond sans capteurs externes (LiDAR, caméras de profondeur) rend la solution applicable à des données purement RGB, facilitant son déploiement à grande échelle.
Précision Géométrique : L'introduction d'une contrainte géométrique explicite, mais sélective, permet d'obtenir des cartes de profondeur plus précises et structurellement cohérentes, essentielles pour la robotique, la réalité virtuelle et la modélisation 3D.

En résumé, PAGCNet représente une avancée majeure en estimation de profondeur panoramique en combinant intelligemment l'apprentissage profond et la géométrie analytique pour gérer la complexité du monde réel.