Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Cet article présente une architecture de suivi d'objets modulaire et asynchrone (MATA) intégrant des transformateurs et un filtre de Kalman étendu pour les drones, accompagnée d'un nouveau protocole d'évaluation et d'une métrique (NT2F) validés sur des plateformes embarquées pour améliorer la robustesse et l'efficacité en temps réel.

Augustin Borne, Pierre Notin, Christophe Hennequin, Sebastien Changey, Stephane Bazeille, Christophe Cudel, Franz Quint

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🚁 Le Problème : Le Suivi d'Objet en Drone, c'est comme courir sur un tapis roulant

Imaginez que vous essayez de suivre un ami qui court dans un parc, mais vous êtes sur un tapis roulant qui bouge, tourne et s'agite de tous les côtés (c'est le drone). De plus, votre ami peut se cacher derrière un arbre ou un bâtiment (occlusion).

Le défi pour les drones est triple :

  1. Le mouvement du drone brouille la vue (est-ce que l'objet bouge ou est-ce le drone ?).
  2. Les obstacles font disparaître l'objet de la caméra.
  3. L'ordinateur du drone est petit et faible (comme un smartphone), il ne peut pas faire des calculs trop lourds, sinon le drone s'écrase ou la batterie se vide en 5 minutes.

Les systèmes actuels sont soit trop bêtes (ils perdent l'objet dès qu'il se cache), soit trop intelligents mais trop lents (ils font des calculs complexes qui prennent trop de temps).


🛠️ La Solution : L'Architecture MATA (Le Trio de Choc)

Les auteurs proposent une nouvelle méthode appelée MATA. Imaginez que pour suivre cet ami, vous ne faites pas confiance à une seule personne, mais à une équipe de trois spécialistes qui travaillent ensemble, chacun à son propre rythme :

  1. Le "Compensateur de Mouvement" (Le Gyroscope) :

    • Son rôle : Il regarde le sol et dit : "Hé, le drone tourne à gauche ! Ce n'est pas l'objet qui bouge, c'est nous !"
    • L'analogie : C'est comme si vous marchiez dans un train qui accélère. Votre cerveau compense le mouvement du train pour que vous puissiez lire un livre sans que les lettres ne tremblent. Ici, le système "annule" le mouvement du drone pour ne voir que le vrai mouvement de l'objet.
  2. Le "Détective Visuel" (Le Transformer) :

    • Son rôle : C'est un expert en intelligence artificielle très intelligent qui regarde l'image et dit : "Tiens, c'est bien cet oiseau !"
    • Le problème : Il est très précis, mais il est lent et gourmand en énergie. Il ne peut pas regarder chaque image instantanément.
  3. Le "Prévisionniste" (Le Filtre de Kalman) :

    • Son rôle : C'est un mathématicien rapide qui prédit où l'objet va être.
    • L'analogie : Si le Détective Visuel met du temps à analyser une photo, le Prévisionniste dit : "Bon, l'objet allait à droite à 10 km/h, donc dans 0,1 seconde, il sera ici."
    • Le génie de MATA : Pendant que le Détective (lent) réfléchit, le Prévisionniste (rapide) continue de donner la position. Si l'objet disparaît derrière un arbre, le Prévisionniste continue de deviner où il est allé, évitant ainsi de perdre la cible.

📏 Le Nouveau Test : "Combien de temps avant de lâcher ?"

Jusqu'à présent, on testait les drones comme si on avait un super-ordinateur infini. Les auteurs disent : "Non, il faut tester comme dans la vraie vie, avec des retards et des blocages."

Ils ont créé un nouveau test appelé EOP (Protocole d'Évaluation Orienté Embarqué).

  • L'analogie : Imaginez un test de conduite.
    • L'ancien test : On vous donne une voiture de course sur un circuit vide. Vous faites des records de vitesse.
    • Le nouveau test (EOP) : On vous donne la même voiture, mais dans les embouteillages de Paris, avec des feux rouges et des piétons. C'est plus dur, mais c'est la réalité.

Ils ont aussi inventé une nouvelle mesure appelée NT2F (Temps Normalisé avant l'Échec).

  • Au lieu de demander "Combien de fois vous avez eu raison ?", ils demandent : "Combien de temps pouvez-vous tenir la cible sans vous tromper avant de la perdre définitivement ?" C'est comme mesurer la durée de vie d'une bougie avant qu'elle ne s'éteigne.

🧪 Les Résultats : Ce qui s'est passé en vrai

Ils ont testé leur système sur un drone réel (un Nvidia Jetson, un petit ordinateur puissant mais limité) et sur des vidéos simulées où l'objet se fait cacher par des formes géométriques (des cercles, des rectangles) pour simuler des arbres ou des murs.

Ce qu'ils ont découvert :

  1. La robustesse : Le système MATA ne perd pas l'objet aussi vite que les autres. Même si l'objet se cache, le "Prévisionniste" garde le cap jusqu'à ce que le "Détective" le retrouve.
  2. La réalité : Le nouveau test (EOP) a montré que les systèmes qui semblaient parfaits sur papier échouaient souvent sur le vrai drone à cause des délais de calcul. MATA, lui, résiste mieux à ces contraintes.
  3. Le compromis : Sur le vrai matériel, MATA n'est pas magique (il y a toujours des limites de puissance), mais il est beaucoup plus fiable que les méthodes classiques pour les situations difficiles.

🎯 En résumé

Ce papier nous dit : "Pour qu'un drone suive un objet dans la vraie vie, il ne suffit pas d'avoir une caméra intelligente. Il faut une équipe qui combine la vision, la compensation du mouvement et la prédiction mathématique, le tout testé dans des conditions réalistes et non idéales."

C'est comme passer d'un joueur d'échecs qui joue seul dans une pièce calme, à un joueur d'échecs qui doit jouer en même temps qu'il conduit une moto sur une route cahoteuse. MATA est le casque et le système de navigation qui lui permettent de ne pas tomber.