FireRed-Image-Edit-1.0 Technical Report

Ce rapport technique présente FireRed-Image-Edit, un transformateur de diffusion optimisé pour l'édition d'images par instruction, qui atteint des performances de pointe grâce à une vaste base de données de 1,6 milliard d'échantillons, une pipeline d'entraînement multi-étapes innovante et l'établissement du benchmark REDEdit-Bench.

Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

Publié 2026-02-23
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 FireRed-Image-Edit : Le "Chef Cuisinier" de la Retouche Photo

Imaginez que vous avez une vieille photo de vacances un peu floue, ou une photo de vous avec un t-shirt que vous n'aimez plus. Vous voulez changer le fond, ajouter un chapeau, ou même modifier le texte sur un panneau publicitaire dans l'image. Avant, il fallait être un expert en Photoshop pour faire ça. Aujourd'hui, FireRed-Image-Edit est comme un chef cuisinier magique qui peut comprendre vos instructions à la voix et transformer votre photo instantanément.

Ce n'est pas juste un outil de retouche, c'est un modèle d'intelligence artificielle (IA) conçu par l'équipe "Super Intelligence" de Xiaohongshu (une grande application chinoise de style de vie). Voici comment ils ont fait pour créer ce chef d'œuvre, expliqué en trois étapes clés.

1. La Cuisine : Préparer les Ingrédients (Les Données) 🥦

Pour qu'un chef soit bon, il faut de bons ingrédients. Les chercheurs ont eu un problème : ils avaient besoin de millions de recettes (paires "image avant / image après") pour entraîner leur IA.

  • Le défi : Ils avaient 1,6 milliard de "grains de riz" (données) bruts, mais beaucoup étaient cassés, sales ou inutiles.
  • La solution : Ils ont construit une usine de tri ultra-sophistiquée.
    • Imaginez un tamis géant qui enlève les photos floues, celles avec des filigranes (logos d'eau), ou celles générées par d'autres IA (qui ressemblent trop à du plastique).
    • Ils ont ensuite créé des "recettes" (des instructions textuelles) très précises. Par exemple, au lieu de dire juste "change la couleur", ils apprennent à l'IA à dire "change la couleur du ciel en coucher de soleil rose, mais garde le visage de la personne intact".
    • Le résultat : Ils ont gardé les 100 millions de meilleurs ingrédients, parfaitement équilibrés entre la création de nouvelles images et la modification d'images existantes.

2. L'Apprentissage : L'École de Cuisine (L'Entraînement) 🎓

Une fois les ingrédients prêts, il faut apprendre au chef à cuisiner. C'est là que FireRed-Image-Edit se distingue par son intelligence.

  • L'architecture (Le Cerveau) : Au lieu d'apprendre tout d'un coup, l'IA utilise une structure appelée "Diffusion Transformer". Imaginez un sculpteur qui commence par une grosse pierre brute et enlève petit à petit la pierre pour révéler la statue. L'IA fait la même chose avec le bruit pour révéler l'image.
  • L'efficacité (Le Tri des ingrédients) : Souvent, les ordinateurs perdent du temps à attendre que les images soient toutes de la même taille (comme essayer de faire entrer des chaussures de tailles différentes dans la même boîte). FireRed utilise un "Trieur Intelligent" qui regroupe les images de tailles similaires pour que l'ordinateur travaille sans jamais s'arrêter.
  • La Récompense (Le Maître Cuisinier) :
    • Pour le texte : Si vous demandez d'écrire "Bonjour" sur un mur, l'IA ne doit pas écrire "Bnjor" ou faire des lettres géantes qui dépassent. Ils ont créé un système de récompense spécial (comme un examen de calligraphie) qui vérifie que le texte est bien écrit et bien placé.
    • Pour le visage : Si vous changez les vêtements d'une personne, son visage ne doit pas changer ! L'IA a un "gardien de l'identité" qui vérifie en permanence que le nez et les yeux restent les mêmes, même si le reste bouge.

3. Le Test : Le Concours de Cuisine (Les Évaluations) 🏆

Comment savoir si ce chef est vraiment le meilleur ? Ils ont créé leur propre concours, appelé REDEdit-Bench.

  • C'est comme un examen final avec 15 types de défis : changer un fond, ajouter un objet, retoucher un visage, modifier du texte, etc.
  • Ils ont comparé FireRed-Image-Edit avec les géants du marché (comme les versions payantes de Google ou d'autres IA open-source).
  • Le verdict : FireRed-Image-Edit a gagné ou égalé les meilleurs, même les systèmes payants très chers. Il est particulièrement doué pour :
    • La précision : Il fait exactement ce qu'on lui demande, sans ajouter de détails bizarres.
    • La conservation : Il ne gâche pas ce qu'on ne lui a pas demandé de toucher (comme le fond d'une photo).
    • Le texte : Il sait écrire et modifier des mots dans une image sans les déformer.

En résumé 🌟

FireRed-Image-Edit est une IA qui a appris à retoucher des photos en :

  1. Mangeant des millions de photos triées au crible pour apprendre la différence entre une bonne et une mauvaise retouche.
  2. Utilisant des techniques de "tri intelligent" pour apprendre plus vite et mieux.
  3. Se faisant tester sur des défis réels (comme changer de vêtements ou modifier des panneaux) pour prouver qu'elle est aussi bonne, voire meilleure, que les outils professionnels.

C'est une avancée majeure car elle rend la retouche photo de haute qualité accessible, gratuite (open-source) et précise, comme si vous aviez un assistant personnel qui comprend parfaitement votre vision artistique.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →