NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Les auteurs de l'article NAU-QMUL proposent un modèle multi-modal et multi-tâche combinant BERT et CLIP, enrichi par une stratégie d'augmentation de données, pour détecter les images générées par l'IA et identifier les modèles à l'origine de leur création, obtenant ainsi une cinquième place lors du concours CT2.

Xiaoyu Guo, Arkaitz Zubiaga

Publié 2026-03-02
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé dans un monde où l'art et la réalité se mélangent de plus en plus. Des robots (les IA) peuvent maintenant créer des images si réalistes qu'elles ressemblent à de vraies photos. Le problème ? Comment savoir qui a fait quoi : un humain ou une machine ? Et si c'est une machine, laquelle exactement (est-ce Midjourney, DALL-E, ou Stable Diffusion) ?

C'est exactement le défi que relève l'équipe NAU-QMUL dans cet article. Voici leur solution expliquée simplement, avec quelques images mentales pour rendre les choses claires.

1. Le Concept : Un Duo de Détectives (BERT et CLIP)

Pour résoudre ce mystère, les chercheurs ont créé un "super-détective" numérique. Au lieu d'avoir un seul expert, ils ont assemblé une équipe de deux spécialistes :

  • Le Spécialiste du Texte (BERT) : Imaginez un bibliothécaire très intelligent qui a lu des millions de livres. Quand on lui donne une description (le texte), il comprend immédiatement le contexte, les nuances et le sens.
  • Le Spécialiste des Images (CLIP) : C'est comme un œil d'aigle ultra-perfectionné. Il a vu des milliards de photos et sait instantanément si une image a été peinte par un humain ou générée par un algorithme.

La Magie de la Fusion :
Habituellement, ces deux experts travaillent séparément. Ici, les chercheurs les ont mis dans la même pièce et leur ont demandé de discuter. Ils combinent ce que le bibliothécaire comprend du texte et ce que l'œil d'aigle voit dans l'image. C'est comme si le détective disait : "Le texte dit 'un chat sur un toit', mais l'image a des griffes qui flottent dans le vide... C'est suspect !"

2. La Mission en Deux Étapes (Tâches A et B)

Leur modèle doit accomplir deux missions, comme un jeu vidéo à deux niveaux :

  • Niveau 1 (Tâche A) : Le Filtre de Sécurité.
    • Question : "Est-ce que cette image est vraie ou fausse ?"
    • Analogie : C'est comme un douanier à l'aéroport qui regarde votre passeport pour voir si vous êtes un humain ou un robot. Le modèle doit dire "Oui, c'est une IA" ou "Non, c'est un humain".
  • Niveau 2 (Tâche B) : L'Identification du Coupable.
    • Question : "Si c'est une IA, laquelle l'a faite ?"
    • Analogie : Une fois que le douanier a identifié le robot, il doit dire : "Ah, c'est un robot modèle 'Midjourney 6', pas un 'Stable Diffusion'." C'est plus difficile, car il faut distinguer les signatures de différents fabricants de robots.

3. L'Astuce de l'Entraînement : Le "Cours par Correspondance" (Pseudo-étiquetage)

C'est ici que ça devient vraiment astucieux. Pour entraîner leur détective, ils ont besoin de milliers d'exemples. Mais parfois, ils n'ont pas assez d'exemples étiquetés (on ne sait pas qui a fait quoi).

Alors, ils ont utilisé une technique appelée l'apprentissage par pseudo-étiquettes :

  1. Ils donnent au modèle des images qu'il n'a jamais vues.
  2. Si le modèle est très sûr de lui (plus de 80% de confiance) pour dire "C'est une IA", ils disent : "Ok, on va faire comme si tu avais raison, et on va utiliser cet exemple pour t'entraîner encore plus."
  3. C'est comme un professeur qui dit à un élève : "Tu as l'air si sûr de ta réponse sur ce problème difficile que je vais te donner un point bonus et utiliser ta réponse pour t'entraîner sur d'autres problèmes."

Cela permet d'agrandir la classe d'entraînement sans avoir besoin de plus de manuels scolaires.

4. Le Résultat : Une Performance Solide

Dans un grand concours international (le "CT2"), où les meilleurs détectives du monde se battaient pour trouver les meilleures IA :

  • Pour dire si une image était fausse (Niveau 1), l'équipe a fini 5ème. C'est excellent !
  • Pour identifier le modèle exact (Niveau 2), ils ont aussi fini 5ème. C'est encore plus impressionnant car c'est beaucoup plus difficile.

5. Les Limites et l'Avenir (Le "Mais...")

Les chercheurs sont honnêtes : leur méthode n'est pas parfaite.

  • Le risque d'erreur en cascade : Si le modèle se trompe sur un exemple et qu'on l'utilise pour s'entraîner, il peut apprendre la mauvaise réponse et répéter l'erreur. C'est comme apprendre à conduire en regardant un film où le conducteur fait des fautes.
  • Le biais de confiance : En ne gardant que les réponses où le modèle est "très sûr", ils risquent d'ignorer les cas difficiles et flous, ce qui fausse un peu la réalité.

Pour la suite ? Ils veulent rendre le détective encore plus malin en lui apprenant à mieux comprendre les liens entre le texte et l'image (pas juste les coller ensemble), et à gérer les cas où il n'est pas sûr de lui.

En Résumé

Cette équipe a créé un détective numérique qui utilise la puissance du texte et de l'image pour traquer les fausses images générées par l'IA. En faisant travailler deux experts ensemble et en utilisant une astuce pour s'entraîner sur plus de données, ils ont réussi à se classer parmi les meilleurs au monde. C'est une étape cruciale pour protéger notre réalité dans un monde où tout peut être fabriqué par ordinateur.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →