Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Each language version is independently generated for its own context, not a direct translation.

🎨🎵 Art2Mus : Quand un tableau chante sans passer par les mots

Imaginez que vous êtes dans un musée. Vous regardez un tableau abstrait, rempli de couleurs vives et de formes chaotiques. Vous sentez une émotion, une énergie. Maintenant, imaginez que vous pourriez entendre ce tableau. Pas juste une musique de fond, mais un morceau qui capture exactement l'âme de l'œuvre.

C'est exactement ce que fait Art2Mus. C'est un nouveau système d'intelligence artificielle capable de transformer directement une image d'art en musique.

Mais pourquoi est-ce si spécial ? Pour le comprendre, faisons une petite analogie.

1. Le problème des anciennes méthodes : Le "Traducteur" qui perd le sens

Jusqu'à présent, pour faire de la musique à partir d'une image, les ordinateurs utilisaient une méthode un peu lourde, comme un jeu de "téléphone arabe" :

L'ordinateur regarde le tableau.
Il essaie de décrire le tableau avec des mots (ex: "C'est un paysage triste avec des nuages gris").
Il donne cette description à un autre ordinateur qui compose la musique.

Le problème ? C'est comme essayer de décrire un plat délicieux en disant juste "c'est chaud et salé". Vous perdez tout le reste : le piment, la texture, l'odeur, la nostalgie du chef. En passant par le texte, l'ordinateur oublie les détails subtils du tableau (les coups de pinceau, les nuances de couleurs) qui sont pourtant essentiels pour créer la bonne musique. De plus, la plupart de ces systèmes ont été entraînés sur des photos de chats ou de paysages réels, pas sur des œuvres d'art complexes.

2. La solution Art2Mus : Le "Pont Magique"

Les chercheurs ont créé Art2Mus pour supprimer l'étape intermédiaire (les mots).

Imaginez que l'ordinateur ne regarde plus le tableau pour le décrire, mais qu'il ressent le tableau directement.

L'analogie du pont : Au lieu de construire un pont en passant par une île (le texte), Art2Mus construit un pont direct entre l'île des Images et l'île de la Musique.
Le mécanisme : Le système prend les "empreintes digitales" mathématiques du tableau (ses couleurs, sa structure, son style) et les injecte directement dans le cerveau de l'IA qui compose la musique. Il n'y a pas de mots, pas de traduction. Juste une connexion pure entre ce que l'œil voit et ce que l'oreille entend.

3. Le trésor caché : La base de données "ArtSound"

Pour apprendre à faire ce pont, l'IA a besoin de beaucoup d'exemples. Les chercheurs ont dû créer un immense livre de recettes appelé ArtSound.

Ils ont rassemblé plus de 105 000 paires : un tableau + un morceau de musique.
Ils ont utilisé des robots intelligents pour vérifier que le tableau et la musique allaient bien ensemble (comme un critique d'art qui vérifie si une chanson correspond à une peinture).
C'est comme si on avait créé la plus grande bibliothèque du monde où chaque livre est une œuvre d'art et chaque disque est la musique qui lui correspond parfaitement.

4. Comment ça marche en pratique ?

Le système utilise une technologie appelée "modèle de diffusion" (un peu comme un sculpteur qui part d'un bloc de marbre brumeux et enlève petit à petit la pierre pour révéler la statue).

Ici, le "bloc de marbre" est du bruit blanc (un son statique de radio).
Le "sculpteur" regarde le tableau.
Il enlève le bruit petit à petit, guidé uniquement par ce qu'il voit sur le tableau, jusqu'à ce qu'une mélodie claire émerge.

5. Les résultats : Est-ce que ça marche ?

Les tests montrent que c'est impressionnant :

La musique est cohérente : Si le tableau est sombre et triste, la musique l'est aussi. Si le tableau est explosif et coloré, la musique est rythmée.
C'est un défi plus grand : Les résultats ne sont pas parfaits par rapport aux systèmes qui utilisent le texte (car le texte est plus facile à comprendre pour une machine), mais c'est un exploit incroyable de réussir à faire ça sans aucun mot.
La qualité : Les gens qui ont écouté les résultats ont trouvé que la musique était belle et qu'elle reflétait bien l'émotion du tableau, même si elle n'était pas toujours parfaite.

En résumé

Art2Mus, c'est comme donner à une machine le pouvoir de rêver en musique en regardant un tableau, sans avoir besoin de lui expliquer ce qu'elle voit avec des mots.

C'est une avancée majeure pour l'art, la culture et la créativité, car cela permet de créer de nouvelles expériences où l'image et le son ne font plus qu'un, sans passer par la barrière du langage. C'est l'avenir de l'art assisté par l'IA : une conversation directe entre l'œil et l'oreille.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération de musique assistée par l'IA a considérablement progressé grâce à l'apprentissage multimodal, permettant de synthétiser de l'audio à partir de texte et, plus récemment, d'images. Cependant, les systèmes existants de génération de musique conditionnée par des images souffrent de deux limitations fondamentales :

Biais des données : La plupart des modèles sont entraînés sur des photographies naturelles. Ces données, centrées sur des objets et des scènes littérales, ne capturent pas la richesse sémantique, stylistique et culturelle des œuvres d'art (peintures, sculptures, etc.).
Goulot d'étranglement linguistique : La majorité des pipelines actuels convertissent d'abord l'image en texte (via des descriptions ou des légendes) avant de générer la musique. Cette approche intermédiaire introduit une perte d'information : les nuances stylistiques, les textures et les ambiances difficiles à verbaliser sont filtrées par la description textuelle, empêchant un apprentissage direct des relations visuelles vers l'audio.

L'objectif de ce travail est de surmonter ces obstacles en développant un système capable de générer de la musique directement à partir d'œuvres d'art, sans passer par une étape de traduction image-texte.

2. Contributions Clés

Les auteurs apportent deux contributions majeures :

ArtSound (Jeu de données) : Création d'un ensemble de données multimodales à grande échelle contenant 105 884 paires œuvre d'art – musique.
- Les données proviennent de ArtGraph (œuvres d'art) et de la Free Music Archive (FMA).
- L'ensemble est enrichi de légendes pour les images et l'audio, générées par des modèles de langage (MLLM/LLM).
- Deux métriques d'alignement personnalisées (ICScore et ACScore) ont été développées pour valider la qualité de ces légendes.
- L'appariement image-son est effectué via des similarités d'embeddings (utilisant ImageBind) plutôt que par des métadonnées manuelles.
Art2Mus (Framework de génération) : Proposition du premier cadre conçu spécifiquement pour la génération directe œuvre d'art vers musique.
- Le modèle projette les embeddings visuels directement dans l'espace de conditionnement d'un modèle de diffusion latent, contournant totalement le langage.
- Il apprend à mapper les caractéristiques visuelles (composition, style, émotion) directement vers des motifs acoustiques.

3. Méthodologie et Architecture

L'architecture d'Art2Mus s'inspire du modèle AudioLDM 2 (génération audio par diffusion latente) mais en reformulant radicalement l'interface de conditionnement.

A. Construction du Dataset (ArtSound)

Génération de légendes :
- Images : Utilise LLaVA pour générer des descriptions riches (contenu, humeur, style).
- Audio : Utilise LP-MusicCaps pour des segments courts, fusionnés ensuite par Qwen3 en une description cohérente.
- Filtrage : Les légendes sont évaluées via ICScore (combinaison de CLIP-Score et PAC-Score) et ACScore (combinaison de ROUGE-1 et BERT-Score). Les légendes en dessous d'un seuil (0.80) sont régénérées.
Appariement : Utilisation de l'embedding ImageBind pour calculer la similarité cosinus entre les images et les pistes audio. Une stratégie "gloutonne" apparie chaque piste audio à l'image la plus similaire.

B. Architecture du Modèle (Art2Mus)

Le modèle repose sur un UNet de diffusion latente pré-entraîné (AudioLDM 2) qui reste figé (frozen), sauf pour une nouvelle interface d'alignement.

Extracteur de Conditionnement Visuel (Visual Conditioning Extractor) :
- Une image d'œuvre d'art est encodée par un encodeur visuel pré-entraîné (CLIP ou ImageBind).
- Aligner d'Image (Image Aligner) : Module composé d'un Upscaler (si nécessaire pour passer de 512 à 1024 dimensions) et d'une Couche de Projection. Ce module transforme l'embedding visuel en une séquence de tokens compatibles avec l'espace d'embedding de GPT-2 (768 dimensions).
- L'objectif est de projeter les caractéristiques visuelles dans l'espace "LoA" (Language of Audio) du modèle de diffusion, permettant au modèle de traiter l'image comme une instruction sémantique sans texte.
Processus de Génération :
- Le modèle prend en entrée les tokens visuels projetés (conditionnement $c_{vis}$ ) et un prompt textuel fixe ("Music representing the content of this artwork").
- Il utilise un processus de diffusion inverse (DDIM) pour débruiter un latent audio initial, guidé uniquement par les informations visuelles.
- Le latent débruité est décodé en spectrogramme puis en waveform via un vocodeur (HiFiGAN).
Entraînement :
- Seuls les paramètres de l'interface visuelle (Aligner d'Image) sont mis à jour.
- L'objectif est de minimiser l'erreur de prédiction du bruit ( $\epsilon$ ) dans le processus de diffusion, conditionné par les embeddings visuels.

4. Résultats Expérimentaux

Les expériences comparent Art2Mus (sans texte) à des modèles basés sur le texte (AudioLDM 2, Mozart's Touch) et à des variantes utilisant différents encodeurs visuels.

Métriques Objectives :
- FAD (Fréchet Audio Distance) : Art2Mus (avec ImageBind) atteint un FAD de 13, supérieur à AudioLDM 2 (14) et bien meilleur que Mozart's Touch (19), indiquant une meilleure qualité perceptuelle et réalisme.
- KL-Divergence : Art2Mus montre une distribution de caractéristiques très proche de la vérité terrain (0.00296).
- IBSc (ImageBind Score) : Mesure l'alignement sémantique. Bien que les scores absolus soient inférieurs à ceux des systèmes conditionnés par texte (qui bénéficient d'un "raccourci sémantique"), Art2Mus démontre un alignement significatif entre l'œuvre visuelle et la musique générée.
Évaluation Subjective :
- Une étude avec 15 participants (musiciens, artistes, grand public) a évalué la qualité audio, l'expressivité, la pertinence et l'alignement.
- Les résultats montrent un compromis intéressant : la version ImageBind offre une meilleure qualité audio, tandis que la version CLIP est perçue comme plus expressive et pertinente par rapport au contenu visuel.
Comparaison avec les approches Textuelles :
- Les modèles basés sur le texte obtiennent des scores d'alignement plus élevés, mais cela s'explique par la présence de supervision sémantique explicite.
- Le point fort d'Art2Mus est sa capacité à maintenir une cohérence cross-modale sans passer par le texte, préservant ainsi des détails visuels subtils que le texte aurait pu perdre.

5. Signification et Conclusion

Ce travail établit la génération directe d'image vers musique comme un domaine de recherche viable et distinct.

Avancée Théorique : Il démontre qu'il est possible d'apprendre des correspondances complexes entre le style visuel et la structure musicale sans intermédiaire linguistique, évitant ainsi la perte d'information inhérente à la description textuelle.
Ressources : La publication du dataset ArtSound et des métriques associées fournit une base solide pour la recherche future en génération créative multimodale.
Applications : Ce système ouvre des perspectives pour l'art numérique, la valorisation du patrimoine culturel (musique générée pour des musées) et les pratiques créatives assistées par l'IA où l'artiste souhaite une traduction directe de son œuvre visuelle en son.

En résumé, Art2Mus prouve que l'apprentissage profond peut capturer l'essence émotionnelle et stylistique d'une œuvre d'art et la traduire directement en musique, en contournant les limitations des approches intermédiaires basées sur le langage.