Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Défi : Raconter l'histoire d'un tableau mystérieux

Imaginez que vous avez devant vous un tableau ancien et magnifique de la culture Dongba (une tribu du sud-ouest de la Chine). Ce n'est pas un simple paysage avec des vaches et des fleurs. C'est un monde rempli de dieux, de démons, de symboles sacrés et de créatures mythiques.

Le problème, c'est que si vous demandez à un robot intelligent (une intelligence artificielle classique) de décrire ce tableau, il va probablement se tromper.

Il verra un animal avec des ailes et dira : « C'est un oiseau ».
En réalité, c'est un chauve-souris sacrée qui, dans la mythologie Dongba, sert de messager divin pour aller chercher des textes célestes !

Les robots actuels sont comme des touristes qui visitent un pays étranger sans parler la langue et sans connaître l'histoire. Ils voient les formes, mais ils ne comprennent pas le sens caché et la culture derrière les images.

🚀 La Solution : PVGF-DPC (Le Traducteur Culturel)

Les chercheurs de cette étude ont créé un nouveau système, qu'ils appellent PVGF-DPC. Pour faire simple, c'est comme donner au robot un guide touristique expert et un dictionnaire de symboles avant qu'il ne regarde le tableau.

Voici comment ça marche, étape par étape :

1. Le Moteur de Vision (Le Photographe)

Le système commence par regarder l'image avec des lunettes spéciales (un réseau de neurones appelé MobileNetV2). Au lieu de juste compter les pixels, il cherche les détails importants : les couleurs vives, les lignes audacieuses et les formes étranges.

2. Le Module "Prompt" (Le Guide qui Chuchote)

C'est la partie la plus ingénieuse. Avant même que le robot ne commence à écrire sa phrase, il y a un petit module qui analyse l'image et lui chuchote une indice culturel.

Analogie : Imaginez que vous devez décrire un repas traditionnel. Au lieu de juste dire « Il y a de la viande », le guide vous dit : « Attention, c'est un plat de fête, la viande symbolise la prospérité ».
Dans le cas du tableau Dongba, le système identifie : « Ah, c'est un dieu assis sur un trône de lotus » ou « C'est un fantôme de l'enfer ». Il transforme cette idée en une phrase d'introduction (un "prompt") qui sert de boussole pour la suite.

3. Le Décodeur (L'Écrivain)

Ensuite, un écrivain robotique (basé sur une technologie appelée Transformer) prend l'image ET l'indice du guide pour rédiger la description. Grâce à l'indice, il ne va pas écrire « un oiseau blanc », mais « un oiseau blanc, messager de l'amour dans la mythologie Naxi ».

4. La "Fusion" (Le Professeur de Correction)

Pour s'assurer que le robot ne s'invente pas des histoires (ce qu'on appelle des "hallucinations"), les chercheurs ont créé une règle de notation spéciale (la Visual Semantic-Generation Fusion Loss).

Analogie : C'est comme un professeur qui corrige deux choses en même temps :
1. Est-ce que le guide a bien identifié le sujet ?
2. Est-ce que l'histoire racontée correspond vraiment à ce qu'on voit sur le tableau ?
  Si le robot invente des détails qui ne sont pas là, il perd des points. Cela l'oblige à être précis et fidèle à la culture Dongba.

📚 Ce qu'ils ont fait pour apprendre au robot

Pour entraîner ce système, les chercheurs n'ont pas pu utiliser n'importe quel tableau. Ils ont dû :

Collecter 9 408 images de tableaux Dongba (ce qui est très rare !).
Les annoter : Ils ont écrit manuellement des descriptions précises en expliquant la signification de chaque symbole (le vase de purification, le nœud sans fin, etc.).
Agrandir la collection : Comme il n'y avait pas assez de tableaux, ils ont utilisé des techniques numériques pour créer des variations (rotation, changement de couleurs) afin d'entraîner le robot sur plus d'exemples.

🏆 Le Résultat : Un Robot qui comprend l'âme de l'art

Les tests ont montré que ce nouveau système est bien meilleur que les meilleurs robots actuels (comme BLIP ou ClipCap).

Les autres robots disent : « Il y a un homme avec une queue de serpent. »
Leur robot (PVGF-DPC) dit : « Voici un dieu Dongba, vêtu de jaune, avec une queue de serpent, qui représente une divinité solennelle et majestueuse dans la tradition Naxi. »

En résumé

Cette recherche est comme si on apprenait à un robot à devenir un expert en culture. Au lieu de simplement décrire ce qu'il voit (les formes), il apprend à comprendre ce que cela signifie (l'histoire et la spiritualité). C'est une étape importante pour préserver et faire connaître les trésors artistiques du monde entier, même ceux qui sont très complexes et mystiques comme les peintures Dongba.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les peintures Dongba, héritage pictural précieux du peuple Naxi du sud-ouest de la Chine, se distinguent par des éléments visuels complexes, des palettes de couleurs vives et une symbolique culturelle et régionale profonde. Cependant, la génération automatique de légendes textuelles pour ces œuvres reste un défi majeur pour deux raisons principales :

Décalage de domaine (Domain Shift) : Les modèles de légendage d'images standards, pré-entraînés sur des images naturelles (comme MSCOCO), échouent à capturer les spécificités stylistiques et les connotations culturelles des peintures Dongba, générant souvent des descriptions hallucinées ou culturellement inappropriées.
Pénurie de données : Il existe un manque critique de paires image-légende de haute qualité pour ce domaine spécifique, ce qui entraîne un surapprentissage (overfitting) lorsque des modèles profonds sont appliqués directement.

L'objectif de cet article est de combler ce fossé en développant un système capable de générer des descriptions textuelles qui sont à la fois fidèles au contenu visuel et ancrées dans la culture Naxi.

2. Méthodologie : PVGF-DPC

Les auteurs proposent un nouveau cadre nommé PVGF-DPC (Prompt and Visual Semantic-Generation Fusion-based Dongba Painting Captioning). Il s'agit d'une architecture encodeur-décodeur intégrant trois composants clés :

A. Encodeur Visuel

Architecture : Utilisation de MobileNetV2 comme backbone.
Justification : Bien que les Transformers visuels (ViT) soient performants sur de grands jeux de données, MobileNetV2 offre un meilleur compromis entre efficacité computationnelle et qualité d'extraction de caractéristiques pour le jeu de données limité des peintures Dongba.
Fonctionnement : L'image est redimensionnée (299x299) et transformée en un vecteur de caractéristiques discriminatif de 1280 dimensions.

B. Module de Prompt de Contenu (Content Prompt Module)

Ce module est l'innovation centrale pour l'ancrage culturel :

Fonction : Il prend le vecteur de caractéristiques de l'image et prédit une étiquette thématique culturelle (ex: « divinité », « fantôme de l'enfer », « rituel », « musique »).
Construction du Prompt : Une fois la catégorie prédite, un prompt postérieur (post-prompt) est généré (ex: « Ceci est une peinture Dongba sur une divinité »).
Intégration : Ce prompt est concaténé avec le texte de la légende cible et injecté dans le décodeur. Cela guide le modèle vers un contexte culturel explicite, réduisant les hallucinations.

C. Décodeur et Fusion Sémantique

Architecture : Un décodeur Transformer de 10 couches, initialisé avec des poids pré-entraînés de BERT.
Injection Visuelle : Contrairement aux approches classiques où les features visuelles sont simplement concaténées, ici le vecteur d'image est injecté directement dans les couches de normalisation par lot (Layer Normalization) du décodeur. Cela permet une modulation continue des caractéristiques visuelles sur la génération de texte à chaque étape.
Fonction de Perte de Fusion (Visual Semantic-Generation Fusion Loss) :
- Une fonction de perte composite optimise simultanément deux objectifs : la prédiction du prompt ( $L_{prompt}$ ) et la génération de la légende ( $L_{text}$ ).
- Formule : $L_{fusion} = \alpha L_{text} + \lambda L_{prompt}$ .
- Cela force l'encodeur à extraire des caractéristiques visuelles culturellement saillantes et le décodeur à produire des textes sémantiquement alignés avec l'image et le contexte culturel.

3. Contributions Clés

Jeu de données dédié : Création d'un ensemble de données spécifique pour les peintures Dongba, contenant 9 408 images augmentées, annotées avec des descriptions culturellement fondées et réparties en 7 catégories thématiques (divinités, fantômes, faune, flore, équestre/pêche, musique/danse, motifs religieux).
Module de Prompt de Contenu : Une méthode innovante pour mapper les features visuelles vers des labels culturels et les utiliser comme guides explicites pour le décodeur, améliorant la pertinence thématique.
Perte de Fusion Visuelle-Sémantique : Une stratégie d'optimisation conjointe qui lie la classification du thème culturel à la génération de texte, assurant une cohérence profonde entre l'image et la légende.

4. Résultats Expérimentaux

Le modèle a été évalué sur un jeu de test dédié et comparé à des modèles de pointe (SOTA) en légendage zéro-shot et contrôlable (BLIP, ViECap, MacCap, ClipCap, etc.).

Métriques Objectives : PVGF-DPC surpasse tous les modèles de base sur les 7 métriques principales :
- BLEU-1/2/3/4 : 0.603 / 0.426 / 0.317 / 0.246
- METEOR : 0.256
- ROUGE : 0.403
- CIDEr : 0.599 (supérieur de 0.416 au deuxième meilleur modèle, ViECap).
Évaluation Qualitative : Les légendes générées par PVGF-DPC sont non seulement plus précises visuellement (identification correcte des sujets comme le « chauve-souris blanche » ou la « divinité Shu ») mais incluent également des détails mythologiques et symboliques (rôle de messager divin, signification des attributs) que les autres modèles ignorent ou confondent.
Étude Ablative : La suppression du module de prompt ou de la perte de fusion entraîne une baisse significative des performances, confirmant que les deux composants sont complémentaires et essentiels.

5. Signification et Impact

Cet article représente une avancée significative dans le domaine de la compréhension d'images du patrimoine culturel.

Il démontre que l'application directe de modèles génériques échoue sur des domaines artistiques spécifiques chargés de symbolisme.
Il propose une solution efficace combinant l'apprentissage par prompt (pour l'ancrage sémantique culturel) et la fusion de perte (pour l'alignement visuel), permettant de surmonter la pénurie de données et le décalage de domaine.
Le cadre PVGF-DPC ouvre la voie à la numérisation et à la préservation intelligente d'autres formes d'art traditionnel, en assurant que les descriptions générées respectent la richesse et la nuance culturelle des œuvres originales.