EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Cet article présente EA-Swin, un transformateur Swin agnostique aux embeddings capable de détecter les vidéos générées par l'IA avec une précision exceptionnelle (97-99 %) et une forte généralisation, grâce à une architecture innovante et à un nouveau jeu de données de référence de 130 000 vidéos.

Hung Mai, Loi Dinh, Duc Hai Nguyen, Dat Do, Luong Doan, Khanh Nguyen Quoc, Huan Vu, Naeem Ul Islam, Tuan Do

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Dilemme : La Vidéo "Too Good to Be True"

Imaginez que vous regardez une vidéo sur Internet. C'est un chat qui joue du piano, ou un politicien qui fait un discours incroyable. La qualité est parfaite, le mouvement est fluide, la lumière est belle. Est-ce réel ? Est-ce une invention d'une intelligence artificielle (IA) ?

Aujourd'hui, des IA comme Sora ou Veo sont devenues si douées qu'elles créent des vidéos qui trompent même nos yeux. C'est comme si un faussaire avait appris à peindre des tableaux si réalistes que vous ne pouvez plus distinguer la vraie toile de la copie.

Le problème, c'est que les méthodes actuelles pour repérer ces fausses vidéos sont comme des détecteurs de métaux des années 90 : elles cherchent des "artefacts" visibles (des pixels bizarres, des ombres étranges). Mais les nouvelles IA sont si intelligentes qu'elles effacent ces erreurs. C'est comme chercher une aiguille dans une botte de foin, sauf que l'aiguille a appris à se cacher.

🕵️‍♂️ La Solution : EA-Swin (Le Détective des "Ombres" Invisibles)

Les auteurs de cet article, une équipe de chercheurs vietnamiens et internationaux, ont créé un nouveau détecteur appelé EA-Swin.

Au lieu de regarder la vidéo "à l'œil nu" (les pixels), EA-Swin regarde comment la vidéo "pense".

L'Analogie de la Danse

Imaginez que vous devez distinguer un danseur professionnel d'un robot qui imite la danse.

  • L'ancienne méthode (Regarder les pixels) : Elle regarde si les chaussures du danseur sont bien attachées ou si ses cheveux bougent naturellement. Si le robot est parfait, cette méthode échoue.
  • La méthode EA-Swin (Regarder la trajectoire) : Elle ne regarde pas les chaussures. Elle observe la trajectoire des mouvements.
    • Un vrai humain a des micro-mouvements, des hésitations, une fluidité organique qui suit des lois physiques complexes.
    • Une IA, même très avancée, a tendance à "lisser" trop les mouvements. Ses trajectoires sont trop parfaites, trop lisses, comme une patineuse sur une glace parfaitement polie.

EA-Swin est un détective qui ne regarde pas le visage du danseur, mais qui trace le chemin invisible que ses mouvements dessinent dans l'espace et le temps.

🛠️ Comment ça marche ? (En termes simples)

  1. Le Traducteur (L'Encodeur) : D'abord, le système utilise un "traducteur" (un encodeur vidéo pré-entraîné) qui regarde la vidéo et la transforme en une série de concepts abstraits (des "empreintes digitales" numériques), au lieu de garder les images brutes. C'est comme si on transformait une chanson en une partition musicale pour analyser la structure, plutôt que d'écouter juste le son.
  2. Le Détective (EA-Swin) : Ensuite, EA-Swin analyse ces empreintes. Il utilise une technique appelée Transformeur Swin.
    • Imaginez que vous regardez une vidéo en la découpant en petits carrés (des fenêtres).
    • EA-Swin regarde comment ces carrés bougent les uns par rapport aux autres, dans le temps et dans l'espace.
    • Il cherche des incohérences dans la "danse" des données. Même si l'image est parfaite, la façon dont les données évoluent d'une seconde à l'autre trahit souvent la présence d'une IA.

📚 Le Nouveau Terrain de Jeu : EA-Video

Pour entraîner ce détective, les chercheurs ont eu besoin d'un immense terrain d'entraînement. Ils ont créé EA-Video, une base de données géante contenant 130 000 vidéos.

  • C'est un mélange de vidéos réelles (prises de la vie quotidienne, jeux vidéo, documentaires).
  • Et de vidéos générées par des dizaines d'IA différentes (les plus récentes comme Sora 2, Veo 3, Kling, etc.).

Le plus important ? Ils ont inclus des IA que le détective n'avait jamais vues pendant son entraînement. C'est comme entraîner un garde du corps avec des voleurs connus, puis le tester contre un voleur qu'il n'a jamais rencontré. Résultat ? EA-Swin a réussi à repérer les nouveaux voleurs avec une précision incroyable (plus de 97 %).

🏆 Pourquoi c'est une révolution ?

Jusqu'à présent, les meilleurs détecteurs avaient une précision de 80 à 90 %. Avec les nouvelles IA, ils tombaient souvent à 50 % (comme un lancer de pièce).

EA-Swin, lui, atteint 97 à 99 % de précision, même face aux IA les plus récentes.

  • Il est rapide : Il ne nécessite pas de super-ordinateurs colossaux pour chaque vidéo.
  • Il est robuste : Il résiste aux vidéos compressées (comme sur TikTok ou YouTube) ou floues.
  • Il est généraliste : Il ne se contente pas de mémoriser les défauts d'une IA spécifique, il comprend le "style" de la fausseté.

En Résumé

Imaginez que les fausses vidéos sont des contrefaçons de billets de banque.

  • Les anciennes méthodes cherchaient les fausses couleurs ou les mauvais filigranes.
  • Les faussaires (les IA) ont appris à copier parfaitement ces détails.
  • EA-Swin, lui, ne regarde pas le papier. Il analyse la texture de la fibre et la manière dont l'encre s'est déposée au niveau microscopique. Il détecte la "signature" invisible de la machine qui a fabriqué le billet, même si le billet ressemble à s'y méprendre à l'original.

C'est une avancée majeure pour protéger la vérité dans un monde où tout peut être fabriqué.