LiTo: Surface Light Field Tokenization

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de la recherche LiTo, présentée à la conférence ICLR 2026 par une équipe d'Apple.

Imaginez que vous voulez créer un objet virtuel en 3D (comme une voiture, un vase ou un personnage) à partir d'une simple photo. Le défi, c'est que les objets du monde réel ne sont pas juste des formes colorées. Ils brillent, ils réfléchissent la lumière, et leur apparence change selon l'endroit où vous vous placez pour les regarder.

Le Problème : Les "Mannequins" en Plâtre

Jusqu'à présent, la plupart des intelligences artificielles qui créent des objets 3D fonctionnaient un peu comme des sculpteurs en plâtre. Elles étaient très douées pour créer la forme (la géométrie) et la couleur de base (comme une peinture mate).

Mais elles échouaient sur la magie de la réalité :

Si vous regardiez une pomme rouge sous un angle, elle restait rouge mate.
Dans la vraie vie, si vous bougez, vous verrez un reflet brillant (spéculaire) sur la peau de la pomme, ou un changement de teinte sur le bord (effet de Fresnel).
Les anciennes IA ne pouvaient pas simuler ces reflets changeants. C'était comme si les objets étaient faits de plastique terne, peu importe la lumière.

La Solution : LiTo (Le "Carnet de Notes" de la Lumière)

Les auteurs proposent une nouvelle méthode appelée LiTo (Surface Light Field Tokenization). Pour comprendre, utilisons une analogie culinaire.

1. L'Analogie du "Carnet de Recettes Lumineuses"

Imaginez que chaque objet possède un carnet de recettes secret.

Les anciennes méthodes ne notaient que : "C'est une pomme, elle est rouge."
LiTo, lui, note tout : "Si vous regardez la pomme de gauche, elle a un reflet blanc. Si vous la regardez de droite, le reflet est jaune. Si vous vous penchez, le bord devient plus clair."

Ce carnet, c'est ce qu'on appelle un champ de lumière de surface. C'est une carte complète de la façon dont la lumière rebondit sur l'objet sous tous les angles possibles.

2. Le "Tokenization" : Résumer le Carnet

Le problème, c'est que ce carnet est énorme. Il contient des millions de détails. Si on essaie de l'enregistrer tel quel, cela prendrait trop de place dans la mémoire de l'ordinateur.

LiTo utilise une astuce géniale : le "Tokenization".
Imaginez que vous devez résumer ce carnet de recettes de 1000 pages en une seule petite carte de crédit.

Au lieu d'écrire chaque détail, LiTo apprend à compresser l'information.
Il prend des échantillons aléatoires de la lumière (comme goûter la soupe à différents endroits) et les transforme en un petit ensemble de vecteurs latents (des nombres magiques).
Ces nombres agissent comme une clé universelle. Une fois que l'IA a cette clé, elle peut reconstruire n'importe quel reflet, n'importe quel angle, sans avoir besoin de tout le carnet.

3. La Magie de la Reconstruction

Une fois que l'IA a cette "clé" (les vecteurs latents), elle peut :

Reconstruire la forme : Elle sait exactement où sont les bords de l'objet.
Recréer la lumière : Elle sait comment la lumière doit se comporter sur la surface.

C'est comme si vous aviez un hologramme parfait. Peu importe d'où vous regardez l'objet généré, les reflets bougent de manière réaliste, exactement comme dans la vraie vie.

Comment ça marche en pratique ? (L'Analogie du Peintre)

L'Observation (L'Encodeur) :
L'IA regarde une photo de l'objet. Elle ne se contente pas de voir "c'est une tasse". Elle imagine virtuellement des milliers de caméras tournant autour de la tasse pour comprendre comment la lumière frappe chaque point. Elle résume cette vision complexe en sa "clé" latente.
La Peinture (Le Décodeur) :
Pour afficher l'objet, l'IA utilise une technique appelée Gaussians (des petits nuages de lumière). Contrairement aux anciens modèles qui peignaient une couleur fixe, LiTo peint avec des harmoniques sphériques.
- Analogie : Imaginez un peintre qui utilise des couches de peinture.
  - La première couche (degré 0) donne la couleur de base (le rouge de la pomme).
  - Les couches suivantes (degrés 1, 2, 3) ajoutent les détails complexes : le brillant, les ombres douces, les reflets métalliques.
- Plus l'IA ajoute de couches, plus l'objet devient réaliste et changeant selon l'angle.
La Génération (Le Flow Matching) :
L'équipe a aussi entraîné un modèle pour inventer des objets. Si vous montrez une photo d'un objet inconnu, LiTo peut deviner sa forme complète et ses matériaux, même si vous ne voyez qu'un seul côté. Il imagine le reste de l'objet en respectant la physique de la lumière.

Pourquoi c'est important ?

Réalisme accru : Les objets générés ne ressemblent plus à du plastique. Ils ont des reflets, des brillances et des matériaux qui réagissent à la lumière.
Efficacité : Au lieu de stocker des gigaoctets de données pour chaque objet, LiTo stocke une petite "clé" qui suffit à tout reconstruire.
Créativité : Cela ouvre la porte à la création de mondes virtuels, de jeux vidéo et de films où les objets réagissent naturellement à l'éclairage, sans avoir besoin de photographier chaque objet sous tous les angles.

En résumé

LiTo, c'est comme donner à l'ordinateur un œil de photographe qui comprend non seulement la forme des objets, mais aussi la physique de la lumière. Au lieu de simplement copier une couleur, il apprend la "danse" de la lumière sur la matière, permettant de créer des objets 3D qui semblent vivants, brillants et réels, peu importe d'où vous les regardez.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier "LiTo: Surface Light Field Tokenization", publié à la conférence ICLR 2026.

1. Problématique

Le domaine de la génération et de la reconstruction 3D par apprentissage automatique souffre d'une limitation majeure : la plupart des méthodes existantes se concentrent soit sur la géométrie pure, soit sur l'apparence (couleur) en supposant qu'elle est indépendante de la vue (diffuse).

Limites actuelles : Les modèles échouent souvent à capturer des effets optiques complexes dépendants de l'angle de vue, tels que les reflets spéculaires, les réflexions de Fresnel ou les changements subtils d'éclairage sur des matériaux réalistes.
Objectif : Créer une représentation latente 3D capable de modéliser simultanément la géométrie d'un objet et son apparence dépendante de la vue (Surface Light Field), tout en restant compacte et générative.

2. Méthodologie : LiTo (Surface Light Field Tokenization)

L'approche proposée, LiTo, repose sur l'idée que les images RGB-D (couleur et profondeur) multivues fournissent des échantillons d'un champ de lumière de surface. Au lieu de reconstruire directement l'image, le modèle apprend à encoder ce champ de lumière en un ensemble compact de vecteurs latents.

A. Représentation Latente et Tokenisation

Entrée : Le modèle prend en entrée un échantillonnage aléatoire du champ de lumière de surface, défini par des triplets $(x_i, \hat{d}_i, c_i)$ , où $x$ est la position 3D, $\hat{d}$ la direction de vue, et $c$ la couleur.
Encodeur : Utilise une architecture Perceiver IO modifiée.
- Pour gérer la densité des données (environ 1 million d'échantillons d'entrée), l'équipe propose une méthode d'"apatchification" 3D approximative basée sur les $K$ plus proches voisins (KNN) pour regrouper les points dispersés en tokens, évitant ainsi le coût computationnel d'une attention croisée complète.
- L'attention interne (self-attention) est organisée via une grille de voxels pour l'efficacité.
- La sortie est un ensemble de $k=8192$ tokens latents de dimension $d=32$ .

B. Décodeurs et Supervision

Le système utilise deux décodeurs distincts supervisés conjointement :

Décodeur de Géométrie (Flow Matching) :
- Basé sur le Flow Matching, il apprend une distribution de probabilité 3D $p(x|S)$ qui approxime une fonction delta de Dirac sur la surface de l'objet.
- Il permet de générer des nuages de points et d'estimer les normales de surface sans supervision explicite de maillage.
Décodeur d'Apparence (Gaussiennes 3D) :
- Convertit les latents en un ensemble de Gaussiennes 3D.
- Contrairement aux travaux antérieurs (comme TRELLIS) qui utilisent des couleurs indépendantes de la vue, LiTo prédit des coefficients de harmoniques sphériques d'ordre 3 pour chaque gaussienne.
- Cela permet de modéliser mathématiquement les variations de luminosité et de couleur en fonction de la direction de la caméra.

C. Modèle Génératif

Un modèle de Flow Matching latent (basé sur un Diffusion Transformer ou DiT) est entraîné pour apprendre la distribution des latents LiTo conditionnée par une image unique d'entrée.
Stratégie d'entraînement : Pour garantir une fidélité à la vue d'entrée, le système de coordonnées mondiales est rotatif de sorte que la caméra d'entrée soit toujours à l'orientation identité. Cela élimine la nécessité pour le modèle d'inférer l'orientation 3D, simplifiant la génération.

3. Contributions Clés

Nouvelle Représentation Latente 3D : Introduction d'un espace latent qui encode le champ de lumière de surface complet (géométrie + apparence dépendante de la vue) via des vecteurs compacts.
Cadre d'Entraînement Unifié : Utilisation d'échantillons aléatoires de champs de lumière (RGB-D multivues) pour superviser simultanément la géométrie et l'apparence, permettant la reproduction d'effets comme les reflets spéculaires et Fresnel.
Génération Contrôlable : Développement d'un modèle génératif capable de produire des objets 3D complets à partir d'une seule image, en respectant la géométrie, l'éclairage et les propriétés matérielles de l'entrée.
Efficacité et Précision : Démonstration qu'il est possible d'obtenir une haute fidélité visuelle sans dégradation significative de la précision géométrique, et sans nécessiter de maillages étanches (watertight) ou de géométrie grossière préalable (contrairement à TRELLIS ou 3DTopia-XL).

4. Résultats Expérimentaux

Les expériences ont été menées sur des jeux de données standards (Objaverse-XL, Toys4k, GSO) avec des comparaisons contre l'état de l'art (TRELLIS, TripoSG, 3DTopia-XL, etc.).

Qualité de Reconstruction (Apparence) :
- LiTo surpasse systématiquement les méthodes concurrentes sur les métriques PSNR, SSIM et LPIPS.
- Il excelle particulièrement dans la capture des détails haute fréquence (reflets, ombres portées) et des effets dépendants de la vue, là où les méthodes basées sur des couleurs diffuses échouent.
- Les ablations montrent que l'utilisation d'harmoniques sphériques d'ordre supérieur (jusqu'à 3) est cruciale pour ces performances.
Qualité de Reconstruction (Géométrie) :
- Malgré l'ajout de la complexité de l'apparence, LiTo atteint une précision géométrique (mesurée par la distance de Chamfer) compétitive, voire supérieure, aux méthodes spécialisées uniquement en géométrie, et ce sans utiliser de géométrie de vérité terrain grossière comme oracle.
Génération Image-to-3D :
- Sur le jeu de données Toys4k, le modèle génère des objets avec une fidélité supérieure à la vue d'entrée (meilleurs scores FID et KID) par rapport à TRELLIS.
- Contrairement à TRELLIS qui génère dans un système de coordonnées canonique (nécessitant un post-traitement pour l'alignement), LiTo génère directement dans l'orientation de l'image d'entrée.

5. Signification et Impact

Le travail LiTo représente une avancée significative pour la génération 3D réaliste :

Réalisme Matériel : Il comble le fossé entre la reconstruction géométrique et le rendu photoréaliste en modélisant explicitement la physique de la lumière (champ de lumière de surface) dans l'espace latent.
Efficacité du Pipeline : En évitant les étapes intermédiaires complexes (comme la conversion maillage-champ de rayonnement ou l'optimisation de primitives), le pipeline est plus direct et scalable.
Futur de la Génération 3D : La capacité à séparer et à modéliser les effets dépendants de la vue ouvre la voie à des applications de relighting (changement d'éclairage) et de synthèse de matériaux réalistes à partir de simples images 2D, un défi majeur en vision par ordinateur.

En résumé, LiTo propose une nouvelle façon de "tokeniser" le monde 3D non pas comme une forme statique, mais comme un champ de lumière dynamique, permettant une génération d'objets 3D d'une fidélité visuelle sans précédent.