Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel oude, kleurrijke schetsboek openslaat. Dit is niet zomaar een schetsboek; het is een verzameling van Dongba-schilderingen, een kostbare kunstvorm van het Naxi-volk in het zuidwesten van China. Deze schilderijen zijn vol leven: ze tonen goden, geesten, dieren en rituelen. Maar er zit een groot probleem: als je een moderne computer (een AI) deze schilderijen laat zien, raakt hij in de war.

Waarom? Omdat de AI is opgeleid op foto's van de echte wereld (honden, auto's, mensen in parken). Als hij een Naxi-god ziet die op een lotusbloem zit, denkt de AI misschien: "Oh, dat is een vogel" of "Dat is een vreemde man". Hij mist de diepere betekenis. Hij ziet de vorm, maar niet de ziel of de cultuur.

Dit artikel introduceert een slimme nieuwe manier om deze schilderijen te beschrijven, genaamd PVGF-DPC. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het Probleem: De Verkeerde Gids

Stel je voor dat je een toerist bent in een oud dorpje. Je vraagt een willekeurige toerist (de standaard AI) om je te vertellen wat je ziet. Hij zegt: "Ik zie een man met een staart." Dat is technisch gezien misschien waar, maar het mist de magie. Hij weet niet dat die man een Shu-god is, een belangrijk wezen in de Naxi-mythologie.

De AI heeft een "cultuurkloof". Hij spreekt de taal van de moderne wereld, maar niet de taal van de Dongba-kunst.

2. De Oplossing: Een Slimme Vertaler met een Speciale Hoed

De onderzoekers hebben een nieuw systeem gebouwd dat werkt als een twee-in-één team: een slimme vertaler en een culturele gids.

Deel A: De "Inhouds-Prompt" (De Culturele Gids)

Stel je voor dat je een detective bent. Voordat je het verhaal schrijft, kijkt je gids eerst naar de tekening en zegt: "Hé, kijk eens! Dit is een schilderij over een god die een ritueel uitvoert."

In het systeem heet dit de Content Prompt Module.
De computer kijkt naar de afbeelding en zegt niet alleen "ik zie een lijn", maar "ik zie een god of een geest of een ritueel patroon."
Deze informatie wordt als een stuurinstructie (een 'prompt') aan de schrijver gegeven. Het is alsof je de schrijver een hoed opzet met het opschrift: "Schrijf als een expert in Naxi-mytologie!" Hierdoor raakt de computer niet meer in de war en maakt hij minder fouten.

Deel B: De "Visuele Semantische Fusie" (De Perfecte Dans)

Normaal gesproken kijkt een computer naar een plaatje en schrijft hij daarna een tekst. Het zijn twee aparte stappen.
Bij dit nieuwe systeem dansen de twee stappen samen.

Stel je voor dat de computer een danser is. De muziek (het plaatje) en de bewegingen (de tekst) moeten perfect op elkaar aansluiten.
Het systeem leert dat als hij een specifiek woord kiest (bijvoorbeeld "god"), hij tegelijkertijd moet kijken of dat ook echt op het plaatje staat.
Dit heet de Visual Semantic-Generation Fusion Loss. Het zorgt ervoor dat de computer niet fantaseert (hallucineert), maar precies beschrijft wat hij ziet, maar dan met de juiste culturele woorden.

3. Het Resultaat: Van "Vreemde Vogel" naar "Heilige Bode"

Vroeger zou een standaard AI over een witte vleermuis in een Dongba-schildering zeggen: "Een witte vogel met vleugels."
Met dit nieuwe systeem zegt de computer: "Dit is een witte vleermuis, een heilige boodschapper in de Naxi-mythologie die op een adelaar vliegt om waarzeggerijboeken te halen."

Het verschil is enorm:

Standaard AI: Ziet alleen de oppervlakte.
PVGF-DPC: Begrijpt de diepte, de cultuur en het verhaal.

4. Waarom is dit belangrijk?

De onderzoekers hebben een speciale verzameling van bijna 10.000 van deze schilderijen gemaakt (met slimme trucjes om de hoeveelheid te vergroten). Ze hebben getest of hun systeem beter werkt dan de beste systemen die er nu zijn (zoals BLIP of ClipCap).

Het resultaat? Hun systeem wint op alle fronten. Het maakt minder fouten, gebruikt de juiste woorden en, het allerbelangrijkste: het respecteert de cultuur. Het vertelt het verhaal van de Naxi-volkeren zoals het bedoeld is, in plaats van er een verzonnen verhaal bij te bedenken.

Kort samengevat:
Dit artikel gaat over het geven van een "cultuurhoed" aan een computer, zodat hij niet alleen kan zien wat er op een schilderij staat, maar ook begrijpt wat het betekent. Het is alsof we een tolk hebben gevonden die niet alleen de taal spreekt, maar ook de ziel van de kunst begrijpt.

Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

1. Het Probleem: De Verkeerde Gids

2. De Oplossing: Een Slimme Vertaler met een Speciale Hoed

Deel A: De "Inhouds-Prompt" (De Culturele Gids)

Deel B: De "Visuele Semantische Fusie" (De Perfecte Dans)

3. Het Resultaat: Van "Vreemde Vogel" naar "Heilige Bode"

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: PVGF-DPC

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

1. Het Probleem: De Verkeerde Gids

2. De Oplossing: Een Slimme Vertaler met een Speciale Hoed

Deel A: De "Inhouds-Prompt" (De Culturele Gids)

Deel B: De "Visuele Semantische Fusie" (De Perfecte Dans)

3. Het Resultaat: Van "Vreemde Vogel" naar "Heilige Bode"

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: PVGF-DPC

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit