Leveraging large multimodal models for audio-video deepfake detection: a pilot study

Cette étude présente AV-LMMDetect, un modèle multimodal de grande taille basé sur Qwen 2.5 Omni et affiné par supervision, qui traite la détection de deepfakes audio-visuels comme une tâche de classification par prompt et établit un nouvel état de l'art sur le jeu de données Mavos-DD.

Songjun Cao, Yuqi Li, Yunpeng Luo, Jianjun Yin, Long Ma

Publié 2026-03-02
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Les Super-Faux qui nous trompent

Imaginez que vous recevez une vidéo de votre grand-mère qui vous demande de l'argent d'urgence. Elle a l'air normal, elle parle avec sa voix habituelle... mais en réalité, c'est un deepfake (une super-falsification). Les nouvelles technologies permettent de créer des vidéos et des voix si réalistes qu'il est presque impossible de les distinguer du vrai à l'œil nu ou à l'oreille seule.

Jusqu'à présent, les détecteurs étaient comme des chefs de cuisine spécialisés :

  • L'un ne regardait que les yeux (la vidéo).
  • L'autre ne regardait que la bouche (l'audio).
  • Le problème ? Si le faux est très bon, ces spécialistes se trompent souvent, surtout s'ils rencontrent un type de faux qu'ils n'ont jamais vu auparavant. Ils manquent de "culture générale".

🚀 La Solution : AV-LMMDetect, le "Grand Détective Polyglotte"

Les chercheurs de Tencent et de l'Université Fudan ont créé un nouveau détecteur appelé AV-LMMDetect. Au lieu d'entraîner un petit robot sur une seule tâche, ils ont pris un Géant de l'Intelligence Artificielle (un modèle multimodal appelé Qwen 2.5 Omni) et lui ont donné une mission précise.

Imaginez ce modèle comme un détective privé ultra-intelligent qui a lu tous les livres du monde, vu des millions de films et écouté toutes les musiques. Il a une culture générale énorme.

Au lieu de lui montrer des milliers d'exemples de faux pour qu'il apprenne par cœur, on lui pose simplement une question directe, comme un jeu de rôle :

"Voici cette vidéo avec son son. Selon toi, est-ce que c'est Vrai ou Faux ?"

🎓 La Méthode : L'Entraînement en Deux Étapes

Pour transformer ce géant intelligent en expert en détection de mensonges, ils ont utilisé une méthode en deux temps, un peu comme l'apprentissage d'un nouvel instrument de musique :

  1. Étape 1 : La "Leçon de Base" (LoRA Alignment)
    Imaginez que vous avez un pianiste virtuose (le modèle de base). Vous ne voulez pas qu'il réapprenne à jouer du piano, vous voulez juste qu'il apprenne à jouer votre chanson spécifique.
    Ici, on "gèle" la mémoire du modèle (ses yeux et ses oreilles) et on lui apprend juste à répondre par "Vrai" ou "Faux" en suivant des instructions précises. C'est rapide et efficace.

  2. Étape 2 : La "Pratique Intensive" (Full Fine-tuning)
    Maintenant, on débloque tout ! On laisse le modèle utiliser ses yeux et ses oreilles au maximum pour analyser la vidéo en détail. C'est comme si le pianiste commençait à improviser et à sentir les micro-incohérences entre le mouvement des lèvres et le son de la voix. C'est là qu'il apprend à repérer les petits détails qui trahissent un faux (par exemple, un son qui ne correspond pas tout à fait au mouvement des lèvres).

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Les chercheurs ont testé leur détective sur deux terrains d'entraînement très difficiles (des bases de données de faux vidéos).

  • Le modèle de base (sans entraînement) : C'était comme un touriste perdu. Il disait souvent : "Je ne sais pas, je ne peux pas dire." (32% de réussite).
  • Le modèle entraîné (AV-LMMDetect) : C'est devenu un expert. Il a réussi à repérer les faux avec une précision de 85% dans les cas les plus difficiles, battant tous les autres détecteurs existants.

L'analogie finale :
Les anciens détecteurs étaient comme des gardiens de sécurité qui ne regardaient que la porte d'entrée. Si le voleur entrait par la fenêtre, ils ne voyaient rien.
AV-LMMDetect, lui, est un gardien qui a une vue à 360 degrés, qui entend tout, et qui a assez de bon sens pour dire : "Attends, ce visage bouge trop vite par rapport à la voix, c'est un faux !"

En résumé

Cette étude montre que pour arrêter les super-faux de demain, il ne faut pas créer de petits robots spécialisés, mais utiliser de grands intelligences artificielles que l'on forme à poser les bonnes questions et à écouter attentivement à la fois l'image et le son. C'est une victoire majeure pour la sécurité de nos médias !

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →