Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment voir le monde en 3D, comme nous le faisons. Le problème, c'est que les robots actuels sont très bons pour décrire ce qu'ils voient en 2D (comme une photo), mais ils ont du mal à comprendre la profondeur, la taille et la position exacte des objets dans l'espace réel. C'est comme si le robot voyait un dessin plat, mais ne savait pas si une voiture est à 2 mètres ou à 20 mètres de lui.

Les chercheurs ont créé un nouveau modèle appelé LocateAnything3D. Voici comment il fonctionne, expliqué simplement avec des analogies :

1. La "Chaîne de Vision" (Chain-of-Sight) : Ne sautez pas les étapes

Normalement, demander à un robot de deviner la position 3D d'un objet d'un seul coup, c'est comme lui demander de résoudre une équation mathématique complexe sans montrer ses calculs. Il risque de se tromper ou d'inventer des choses (ce qu'on appelle des "hallucinations").

LocateAnything3D utilise une astuce géniale appelée Chain-of-Sight (Chaîne de Vision). C'est comme si on enseignait au robot une méthode de pensée en deux temps :

Étape 1 (Le 2D) : "Regarde d'abord où est l'objet sur la photo." (C'est facile, c'est comme pointer du doigt).
Étape 2 (Le 3D) : "Maintenant que tu as trouvé l'objet, imagine sa taille et sa distance."

En forçant le robot à d'abord "pointer" l'objet sur l'image avant de deviner sa profondeur, on lui donne une base solide. C'est comme si vous disiez à un enfant : "D'abord, touche la pomme sur la table, puis dis-moi à quelle distance elle est de toi." Cela rend la tâche beaucoup plus fiable.

2. L'ordre des choses : Du plus proche au plus loin

Quand un humain regarde une scène, il remarque d'abord ce qui est proche, puis ce qui est loin. Les anciens modèles essayaient souvent de tout analyser dans un ordre aléatoire ou de gauche à droite, ce qui créait de la confusion.

LocateAnything3D suit une curriculum (un programme d'apprentissage) intelligent :

Il traite d'abord les objets proches (qui sont clairs et faciles à voir).
Ensuite, il passe aux objets lointains (qui sont plus flous et ambigus).

C'est comme si vous appreniez à nager : on commence dans l'eau peu profonde (les objets proches) avant de vous lancer dans le grand bain (les objets lointains). Une fois que le robot a bien compris la géométrie des objets proches, cela l'aide à mieux deviner la taille et la position des objets lointains, car il peut utiliser les objets proches comme référence.

3. Le déballage de l'objet : Où, puis Taille, puis Orientation

Pour décrire un objet en 3D, il faut trois choses : sa position (où ?), sa taille (grand ou petit ?) et son orientation (tourné vers la gauche ?).
Les anciens modèles essayaient souvent de deviner tout cela en même temps, comme si on essayait de résoudre un puzzle en jetant toutes les pièces en l'air.

LocateAnything3D décompose le problème, comme si on déballait un cadeau couche par couche :

D'abord le centre : "Où est l'objet ?" (Le plus important).
Ensuite la taille : "Combien il est grand ?" (Cela dépend de la position).
Enfin la rotation : "Dans quelle direction il regarde ?" (Le plus difficile à deviner, donc on le laisse pour la fin).

Cette méthode rend l'apprentissage beaucoup plus stable et précis.

4. Pourquoi c'est révolutionnaire ?

Avant, pour avoir un robot qui voit en 3D, il fallait souvent lui donner des boîtes 2D dessinées par des humains au préalable (comme un guide). C'était lent et limité.

Avec LocateAnything3D :

Le robot est autonome : il trouve lui-même les objets sur la photo et calcule leur position 3D, le tout en une seule phrase de réponse.
Il est polyglotte : Vous pouvez lui dire "trouve-moi une chaise" ou "trouve-moi la voiture rouge", et il le fait, même s'il n'a jamais vu ce type d'objet pendant son entraînement.
Il est plus fort : Sur les tests les plus difficiles, il bat tous les records précédents, même ceux qui avaient l'aide de "tricheurs" (des données parfaites fournies par des humains).

En résumé

LocateAnything3D, c'est comme donner à un robot des lunettes de réalité augmentée et un manuel d'instructions très clair. Au lieu de deviner n'importe comment, il suit une logique humaine : il regarde, il pointe, il mesure, et il comprend l'espace. Cela ouvre la porte à des robots domestiques, des voitures autonomes et des assistants virtuels qui comprennent vraiment le monde physique qui les entoure, et pas seulement des images plates.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : LocateAnything3D

1. Problématique

Les modèles vision-langage (VLM) actuels excellent dans la perception 2D ouverte (description, localisation, raisonnement) mais peinent à effectuer une détection 3D multi-objets directe à partir d'images monoculaires. Les méthodes existantes souffrent de plusieurs limitations :

Dépendance à des modules spécialisés : Elles nécessitent souvent des têtes de détection spécifiques (task-specific heads) et des espaces de labels fermés.
Manque de généralisation : Elles ne bénéficient pas de la polyvalence, de la compositionnalité et de la capacité à suivre des instructions des VLM modernes.
Approches hybrides lourdes : Les travaux récents tentent de combiner des détecteurs 2D ouverts avec des têtes 3D, mais cela brise la simplicité du paradigme VLM et se limite souvent à la localisation d'un seul objet.

L'objectif est de créer un VLM capable de percevoir nativement le monde en 3D, de produire des boîtes englobantes 3D fiables pour plusieurs objets à partir d'une seule image, et de le faire via une interface unifiée (texte ou visuel) sans modules externes.

2. Méthodologie : LocateAnything3D et Chain-of-Sight (CoS)

L'approche proposée reformule la détection 3D comme un problème de prédiction de token suivant (next-token prediction) natif aux VLM, en introduisant un mécanisme clé appelé Chain-of-Sight (CoS).

A. Le concept Chain-of-Sight (CoS)

Au lieu de prédire directement les coordonnées 3D, le modèle génère une séquence de tokens structurée qui imite le raisonnement humain :

Ancrage 2D (Visual Chain-of-Thought) : Le décodeur émet d'abord une boîte 2D ( $q_i$ ) pour chaque objet. Cette étape sert de "chaîne de pensée visuelle" explicite, ancrant la prédiction sur des preuves visuelles vérifiables et réduisant les hallucinations.
Inférence 3D : Immédiatement après la boîte 2D, le modèle prédit la boîte 3D correspondante ( $b_i$ ).
Séquence : Le format de sortie est $S = (q_1, b_1, q_2, b_2, ..., \langle eos \rangle)$ .

B. Curriculum d'apprentissage (Easy-to-Hard)

Pour optimiser l'apprentissage dans un cadre auto-régressif, l'ordre de génération est strictement contrôlé :

Inter-objet (Near-to-Far) : Les objets sont traités du plus proche au plus éloigné. Cela correspond à l'utilité égo-centrique (les objets proches sont prioritaires pour l'action), fournit des tokens de haute confiance au début de la séquence, et établit un contexte géométrique (occlusion, échelle relative) pour les objets distants.
Intra-objet (Factorisation) : Pour chaque objet, la boîte 3D est décomposée selon un ordre sémantique : Centre ( $t$ ) $\rightarrow$ Dimensions ( $d$ ) $\rightarrow$ Rotation ( $R$ ).
- Pourquoi ? La position est la plus facile à inférer visuellement, suivie de la taille, puis de l'orientation. Cette factorisation stabilise l'apprentissage en contraignant les propriétés ultérieures par les précédentes.

C. Traitement des données et Entraînement

Corpus unifié : Les auteurs ont créé un corpus de 1,74 million d'exemples en unifiant six datasets publics (KITTI, nuScenes, SUN-RGBD, etc.) dans un format JSONL cohérent.
Normalisation : Les données sont normalisées dans un repère caméra, avec un filtrage strict des objets hors champ ou trop tronqués.
Annotation Textuelle : Utilisation de VLM puissants pour générer des descriptions textuelles riches (grounding) pour chaque instance, créant des dialogues d'entraînement.
Échantillons Négatifs : Introduction de requêtes pour des objets absents (avec un token <no_object/>) pour apprendre au modèle à rejeter les fausses détections (anti-hallucination).
Pré-entraînement 2D : Une phase de pré-entraînement sur la détection 2D (boîtes et grounding) est effectuée avant l'entraînement complet CoS pour fournir une base solide de localisation.

3. Contributions Clés

Formulation CoS : Transformation de la détection 3D monoculaire ouverte en un problème de prédiction de tokens natif, couplant l'ancrage 2D explicite à l'estimation 3D pour améliorer la fiabilité.
Curriculum et Représentation : Conception d'un ordre de décodage (proche $\rightarrow$ lointain, centre $\rightarrow$ taille $\rightarrow$ rotation) adapté aux modèles auto-régressifs, garantissant une robustesse face aux changements de caméra et de catégories.
Dataset et Évaluation : Création d'un corpus de données hétérogènes unifié et préparation d'une évaluation rigoureuse sur le benchmark Omni3D, démontrant la supériorité de l'approche sans têtes spécialisées.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark Omni3D (couvrant des scènes intérieures et extérieures).

Performance SOTA : LocateAnything3D atteint 38,90 AP3D, surpassant la méthode précédente la plus performante (DetAny3D) de +13,98 points absolus.
Comparaison avec Ground-Truth 2D : Même lorsque les méthodes concurrentes (comme DetAny3D) bénéficient de boîtes 2D de vérité terrain (Ground-Truth) comme entrée, LocateAnything3D (qui prédit ses propres boîtes 2D) les surpasse encore de +4,52 points en moyenne. Cela prouve que l'apprentissage conjoint 2D-3D dans une seule interface est plus efficace que l'ajout d'une tête 3D sur des propositions 2D externes.
Généralisation Zero-Shot : Le modèle montre une excellente capacité à généraliser à des catégories non vues pendant l'entraînement, surpassant les baselines de plusieurs points sur des ensembles de données comme KITTI et SUN-RGBD.
Efficacité des données : L'approche CoS est significativement plus efficace en termes de données. Avec seulement 10 % des données d'entraînement, le modèle CoS surpasse un modèle "Pure 3D" entraîné avec 100 % des données.

5. Signification et Impact

Ce travail comble un fossé majeur entre la reconnaissance ouverte (open-vocabulary) et la compréhension métrique 3D.

Simplicité et Unification : Il démontre qu'il n'est pas nécessaire de concevoir des architectures complexes spécifiques à la 3D pour obtenir des performances de pointe. Une architecture VLM standard, correctement structurée via le CoS, suffit.
Intelligence Embodied : En fournissant une interface unifiée pour la perception 3D via le langage, ce modèle ouvre la voie à des agents robotiques capables de raisonner et d'agir dans des environnements 3D complexes en suivant des instructions textuelles ou visuelles (ex: "saisis la tasse rouge").
Fondation pour l'avenir : La méthodologie CoS offre une base pratique pour étendre la perception 3D aux vidéos, au raisonnement multi-vues et à la planification d'actions dans le monde physique.

En résumé, LocateAnything3D établit une nouvelle norme pour la détection 3D monoculaire en prouvant que le raisonnement structuré (Chain-of-Sight) au sein d'un VLM est la clé pour transformer la perception 2D en compréhension 3D métrique fiable.

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight