Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Each language version is independently generated for its own context, not a direct translation.

🎩 Le Magicien de la Vision par Ordinateur : TABE

Imaginez que vous regardez un film. Un ballon rouge roule sur le sol et disparaît derrière un gros fauteuil. Votre cerveau humain fait une petite magie : il sait que le ballon est toujours là, qu'il est rond, et qu'il continue de rouler derrière le fauteuil, même si vous ne le voyez plus. C'est ce qu'on appelle la permanence de l'objet.

Les ordinateurs, eux, sont souvent comme des enfants qui n'ont pas encore développé cette intuition. Dès qu'un objet est caché, l'ordinateur pense souvent : "Il a disparu, il n'existe plus".

L'équipe de l'Université de York (au Royaume-Uni) a créé un nouveau système, qu'ils appellent TABE (Track Anything Behind Everything), qui apprend aux ordinateurs à faire cette même magie.

🧩 Le Problème : Le Puzzle Incomplet

Dans le monde de la vision par ordinateur, il y a deux types de "puzzles" :

Le puzzle visible (Modal) : On voit juste la partie du ballon qui dépasse du fauteuil. C'est facile.
Le puzzle complet (Amodal) : On veut deviner la forme entière du ballon, y compris la partie cachée. C'est très difficile car il n'y a pas de photo de référence pour la partie cachée.

Avant TABE, les ordinateurs avaient besoin de milliers d'exemples précis pour apprendre à deviner ce qui est caché, et seulement pour des objets qu'ils connaissaient déjà (comme des voitures ou des chiens). Si vous leur montriez un objet bizarre, ils étaient perdus.

🚀 La Solution TABE : Le "Peintre Magique"

TABE fonctionne comme un peintre très doué qui a vu un seul coup d'œil d'un objet et qui peut imaginer le reste. Voici comment il procède, étape par étape :

1. Le point de départ (La première image)
Vous montrez à l'ordinateur une vidéo et vous lui dites : "Regarde cet objet ici" (en cliquant dessus). L'ordinateur prend une photo de cet objet quand il est bien visible.

2. Le modèle de base (Le grand livre de recettes)
TABE utilise un "super-cerveau" pré-entraîné (un modèle de diffusion vidéo) qui a vu des milliards de vidéos. C'est comme un artiste qui a vu tous les films du monde. Mais ce modèle est trop généraliste : il ne connaît pas votre objet spécifique.

3. La leçon rapide (L'entraînement en direct)
C'est ici que la magie opère. Au lieu d'attendre des mois pour réapprendre, TABE donne une leçon éclair au modèle juste avant de regarder la vidéo.

Il montre au modèle l'objet visible.
Il lui dit : "Voici à quoi ressemble cet objet. Maintenant, imagine-le caché."
Le modèle apprend instantanément les particularités de votre objet (sa forme, sa texture) sans avoir besoin de le re-entraîner depuis zéro.

4. Le dessin de l'invisible (L'outpainting)
Maintenant que le modèle connaît l'objet, il regarde la vidéo. Quand l'objet passe derrière un mur ou un autre objet, TABE ne s'arrête pas. Il utilise le modèle pour "peindre" (techniquement, faire de l'outpainting) la partie manquante.

Il imagine la forme complète de l'objet.
Il s'assure que l'objet continue de bouger de manière logique, même s'il est invisible.

5. Le filtre de réalité
Parfois, l'imagination du modèle peut dériver (il pourrait inventer un deuxième ballon par erreur). Pour éviter cela, TABE utilise une astuce intelligente : il regarde la profondeur de l'image (comme nos yeux voient en 3D).

Si un objet est plus proche de la caméra que l'objet caché, il sait qu'il y a un obstacle.
Il trace une "zone de sécurité" (un cadre imaginaire) où l'objet doit se trouver.
Il force le modèle à ne dessiner que dans cette zone, évitant ainsi les hallucinations bizarres.

🌟 Pourquoi c'est génial ?

Zéro préparation : Vous n'avez pas besoin de lui apprendre ce qu'est un "chien" ou une "voiture". Vous pouvez lui montrer un objet bizarre, un jouet, ou un animal étrange, et il saura le suivre.
Il voit l'invisible : Même si l'objet est totalement caché pendant 10 secondes, TABE continue de le "suivre" mentalement et sait exactement où il est quand il réapparaît.
C'est comme la magie : Tout comme un magicien qui fait disparaître un objet pour mieux le faire réapparaître, TABE comprend que l'objet n'a pas disparu, il est juste caché.

En résumé

TABE est un système qui donne aux ordinateurs l'intuition humaine de la permanence des objets. Il utilise un artiste numérique (l'IA) qui apprend instantanément à connaître un objet spécifique, puis imagine et dessine sa forme complète même lorsqu'il est caché derrière d'autres choses. C'est un pas de géant pour rendre les robots et les voitures autonomes plus intelligents et plus sûrs, car ils pourront enfin "voir" ce qui se cache derrière les obstacles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La segmentation vidéo d'objets (Video Object Segmentation - VOS) a fait d'énormes progrès, permettant de localiser avec précision les parties visibles (modales) d'un objet. Cependant, la capacité des modèles à percevoir et prédire la position des objets lorsqu'ils sont partiellement ou totalement occlus reste un défi majeur.

Ce problème relève de la complétion amodale : la capacité à inférer la forme complète d'un objet, y compris les parties cachées par d'autres éléments, en s'appuyant sur la permanence de l'objet (concept de permanence de l'objet). Les obstacles principaux sont :

Le manque de données réelles : Obtenir des "vérités terrain" (ground truth) pour les parties cachées est extrêmement difficile et coûteux.
L'ambiguïté de la vérité terrain : La perception humaine des objets cachés repose sur des déductions contextuelles, ce qui rend la définition d'une vérité terrain objective complexe pour les machines.
Limites des méthodes existantes : La plupart des approches actuelles nécessitent un entraînement sur des classes d'objets spécifiques ou échouent face à des occlusions sévères/totales.

L'objectif de cet article est de proposer une méthode Zero-Shot (sans apprentissage préalable sur des classes spécifiques) capable de segmenter un objet à travers des occlusions, en utilisant uniquement un masque de requête sur la première frame où l'objet est visible.

2. Méthodologie : Le Pipeline TABE

Les auteurs proposent un pipeline nommé TABE (Track Anything Behind Everything), qui reformule la segmentation amodale comme un problème de génération par "outpainting" (extension d'image) à l'aide d'un modèle de diffusion vidéo pré-entraîné.

Le processus se déroule en plusieurs étapes clés :

A. Génération des Masques Visibles et de la Requête

À partir d'une vidéo et d'un point de clic (ou d'une description textuelle) sur la première frame, un modèle de segmentation Zero-Shot (comme SAM2) génère un masque binaire de requête ( $m_q$ ).
Ce masque est utilisé pour extraire les masques visibles de l'objet pour chaque frame de la vidéo. Si l'objet est totalement caché, le masque visible est vide.

B. Masques de Région Cible (Target Region Masks)

Pour éviter que le modèle de diffusion n'ajoute du contenu arbitraire (hallucinations) ou ne modifie le fond, le pipeline restreint la zone d'extension ("outpainting") à une masque de région cible par frame. Ce masque est construit en combinant deux indices :

Estimation de profondeur : Utilisation de Depth Anything v2 pour estimer la profondeur. Les pixels dont la profondeur est inférieure à la moyenne de la région visible sont candidats à l'extension (car ils sont potentiellement derrière l'objet).
Boîte englobante temporelle : Une boîte englobante approximative est estimée en utilisant la continuité temporelle. Pour les frames sans pixels visibles, la boîte est interpolée ou extrapolée. Si la surface change, la boîte est ajustée en supposant une occlusion constante.

C. Étiquetage de l'Occlusion

Avant le fine-tuning, le système identifie quelles frames contiennent une occlusion.

Il analyse la frontière du masque visible. Si la profondeur augmente brusquement juste à l'extérieur du masque par rapport à l'intérieur, c'est une limite d'objet réelle. Si la profondeur diminue, c'est une limite d'occlusion (l'objet continue derrière un objet plus proche).
Un score d'occlusion ( $f_{occ}$ ) est calculé. Les frames sont étiquetées comme "non occluses" ou "occluses" selon un seuil. Cette information est cruciale pour le fine-tuning.

D. Fine-Tuning du Modèle de Diffusion au Moment du Test (Test-Time Fine-Tuning)

C'est le cœur de l'innovation. Au lieu d'utiliser un modèle de diffusion générique (qui ne respecte pas les contraintes spécifiques de l'objet), les auteurs effectuent un fine-tuning rapide du modèle (basé sur CoCoCo et Realfill) spécifiquement pour l'objet de la vidéo en cours.

Adaptation (LoRA) : Utilisation de Low-Rank Adaptation pour ajuster le modèle avec quelques images de l'objet, tout en gelant les paramètres principaux pour conserver la généralisation.
Stratégie d'entraînement :
- On isole l'objet visible et on met le reste de l'image en blanc.
- On génère des masques binaires aléatoires : certains masquent l'objet (pour apprendre à reconstruire les parties cachées), d'autres masquent le fond (pour apprendre à générer un fond blanc cohérent).
- Perte conditionnelle : La fonction de perte est calculée uniquement sur les frames étiquetées comme "non occluses" ( $V_i=1$ ), évitant ainsi d'apprendre à partir de données bruitées ou indéfinies.
Inférence : Le modèle est invité à générer une vidéo de l'objet complet sur un fond blanc.

E. Post-Traitement

Les frames générées (objet complet sur fond blanc) sont réinjectées dans le pipeline de segmentation (SAM2) avec le masque de requête original pour obtenir le masque de segmentation amodal final précis.

3. Contributions Clés

Pipeline TABE : Une nouvelle architecture pour la segmentation vidéo amodale Zero-Shot, ne nécessitant aucun masque d'entraînement spécifique ni étiquettes de classes.
Utilisation de la Diffusion Vidéo : Transformation du problème de complétion amodale en un problème de génération (outpainting) via un modèle de diffusion vidéo pré-entraîné, permettant une grande flexibilité.
Fine-Tuning Adaptatif (Test-Time) : Une méthode pour spécialiser un modèle de diffusion généraliste vers un objet spécifique en temps réel, améliorant la cohérence et la précision de la reconstruction.
Gestion des Occlusions Sévères : Introduction de masques de région cible et d'une logique d'étiquetage d'occlusion pour gérer les cas où l'objet est totalement invisible, un point faible des méthodes précédentes.

4. Résultats Expérimentaux

Les auteurs ont évalué TABE sur le sous-ensemble TAO-Amodal (un dataset réel de vidéos avec des boîtes englobantes amodales estimées par des humains).

Comparaison : TABE a été comparé à des méthodes de pointe comme pix2gestalt (complétion d'image), TCOW (suivi à travers les occlusions), SDAmodal et Amodal Expander.
Performance : TABE surpasse significativement toutes les autres méthodes, y compris Amodal Expander qui est entraîné spécifiquement sur ces classes d'objets.
- AP@25 : TABE obtient 0.659 contre 0.417 pour le deuxième meilleur (Amodal Expander).
- AP@50 : TABE obtient 0.518 contre 0.356.
Observation importante : Le papier note que même SAM2 (qui ne fait que de la segmentation modale/visible) surpasse TCOW sur les métriques amodales, soulignant que les métriques actuelles peuvent être trompeuses et que la simple poursuite des parties visibles donne de bons scores. TABE, en revanche, réussit réellement à reconstruire les parties cachées.

5. Signification et Impact

Approche Humaine : TABE s'approche davantage de la cognition humaine (permanence de l'objet) que des méthodes traditionnelles basées sur la ré-identification (Re-ID) qui échouent souvent lors d'occlusions totales.
Généralisation Zero-Shot : La capacité à traiter n'importe quel objet sans réentraînement préalable ouvre la voie à des applications dans des environnements dynamiques et imprévisibles (robotique, véhicules autonomes, réalité augmentée).
Innovation Technique : L'utilisation du fine-tuning au moment du test sur des modèles de diffusion pour des tâches de segmentation spécifique est une avancée méthodologique intéressante qui pourrait être appliquée à d'autres problèmes de vision par ordinateur.
Transparence : Les auteurs s'engagent à rendre le code et le modèle publics, favorisant la reproductibilité et les recherches futures dans ce domaine.

En résumé, TABE représente une avancée majeure en démontrant qu'il est possible de reconstruire la forme complète d'objets cachés dans des vidéos réelles en combinant la puissance générative des modèles de diffusion avec une adaptation rapide et ciblée, sans nécessiter de données d'entraînement massives spécifiques.