Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen vor einem beeindruckenden Gemälde in einer Galerie. Es ist voller Farben, Emotionen und einer bestimmten Stimmung. Normalerweise müssten Sie ein Lied hören, um zu verstehen, wie sich das Bild anfühlt. Aber was, wenn das Bild selbst eine Melodie singen könnte?

Genau das ist das Ziel des Projekts Art2Mus, das in diesem Papier vorgestellt wird. Hier ist eine einfache Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Die "Übersetzungs-Barriere"

Bisher haben Computer versucht, Musik aus Bildern zu machen, indem sie das Bild erst in Text umwandeln.

Die alte Methode: Ein Computer schaut auf ein Bild, denkt: "Das ist ein roter Sonnenuntergang, traurig und ruhig" und schreibt diesen Satz auf. Dann nimmt ein anderer Computer diesen Satz und schreibt Musik dazu.
Das Problem: Das ist wie ein "vermittelter" Brief. Wenn Sie ein Bild beschreiben, gehen viele Details verloren. Die genaue Art, wie der Pinselstrich aussieht, oder das Gefühl der Textur, lässt sich schwer in Worte fassen. Der Computer verpasst also die "Seele" des Bildes, weil er sich nur auf die grobe Beschreibung verlässt.

2. Die Lösung: Ein direkter Draht

Die Forscher von Art2Mus haben eine neue Methode entwickelt, die diese Übersetzungsschleife umgeht.

Die Analogie: Stellen Sie sich vor, Sie wollen jemandem ein Gefühl vermitteln.
- Alt: Sie schreiben einen Brief über das Gefühl (Text), und jemand liest ihn und spielt Musik dazu.
- Neu (Art2Mus): Sie geben dem Musiker direkt das Gefühl (das Bild) und sagen: "Spiele das, was du hier siehst."
Das System schaut sich das Bild direkt an und übersetzt die visuellen Signale (Farben, Formen, Stil) direkt in Töne, ohne dass ein menschlicher oder künstlicher "Übersetzer" dazwischenkommt.

3. Der große Datenschatz: "ArtSound"

Damit ein Computer so etwas lernen kann, braucht er viele Beispiele. Bisher gab es kaum Daten, die Kunstwerke direkt mit Musik verknüpften.

Die Forscher haben einen riesigen Datensatz namens ArtSound erstellt.
Sie haben über 105.000 Paare aus Kunstwerken und Musikstücken zusammengetragen.
Sie haben sogar eine Art "Qualitätskontrolle" eingebaut: Ein KI-System hat überprüft, ob die Beschreibung des Bildes und die Beschreibung der Musik wirklich zusammenpassen. Wenn nicht, wurde es verbessert. Das ist wie ein strenger Lehrer, der sicherstellt, dass die Schüler wirklich verstehen, was sie tun.

4. Wie die Maschine lernt: Der "Kunst-Übersetzer"

Das Herzstück ist ein spezielles Bauteil im Computer, das wir uns wie einen Dolmetscher für Bilder vorstellen können.

Normalerweise versteht der Musik-Computer nur "Text" (Beschreibungen).
Der neue Dolmetscher nimmt das Bild, zerlegt es in seine mathematischen Bestandteile (Embeddings) und wandelt diese so um, als wären sie Textbefehle für die Musik.
Der Computer lernt dann: "Wenn ich diese spezifische blaue Farbe und diese wellenförmigen Linien sehe, dann muss die Musik so klingen." Er lernt die Verbindung direkt zwischen Auge und Ohr.

5. Das Ergebnis: Musik, die das Bild "spürt"

Die Tests haben gezeigt, dass das System erstaunlich gut funktioniert:

Es erzeugt Musik, die zur Stimmung des Bildes passt.
Es ist zwar noch nicht ganz so perfekt wie Systeme, die Text verwenden (weil Bilder einfach schwerer zu "verstehen" sind als klare Sätze), aber es ist ein riesiger Schritt nach vorne.
Der Vorteil: Da keine Worte dazwischen sind, kann die Musik auch Nuancen einfangen, die man gar nicht beschreiben könnte – wie die rohe Energie eines abstrakten Gemäldes.

Warum ist das wichtig?

Stellen Sie sich vor, Sie gehen durch ein Museum und jedes Bild spielt automatisch die perfekte Hintergrundmusik, die genau zu seiner Geschichte und Stimmung passt. Oder ein Künstler malt ein Bild und die KI komponiert sofort dazu ein Stück.

Dieses Projekt zeigt, dass wir KI nicht nur dazu bringen können, Dinge zu beschreiben, sondern dass wir ihr beibringen können, die tiefe, emotionale Verbindung zwischen Sehen und Hören direkt zu verstehen. Es öffnet die Tür für neue Formen der kreativen Zusammenarbeit zwischen Mensch und Maschine.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die automatische Generierung von Musik aus Bildern ist ein komplexes multimodales Problem. Bisherige Ansätze leiden unter zwei wesentlichen Einschränkungen:

Fokus auf Naturfotografie: Die meisten bildbasierten Systeme werden mit natürlichen Fotografien trainiert. Diese enthalten oft eine wörtliche, objektorientierte Semantik, die die reichhaltigen stilistischen, kulturellen und symbolischen Bedeutungen von Kunstwerken (Gemälden, Skulpturen etc.) nicht adequately abbildet.
Abhängigkeit von Text-Intermediären: Viele Pipelines nutzen einen „Image-to-Text"-Schritt, bei dem Bilder zunächst in Textbeschreibungen (Captions) umgewandelt werden, bevor die Musik generiert wird. Dies führt zu einem semantischen Flaschenhals: Feine Nuancen, Texturen und stilistische Details, die schwer verbalisierbar sind, gehen beim Übersetzungsprozess verloren. Die Musik wird dann auf Basis linguistischer Abstraktionen generiert, nicht direkt auf Basis der visuellen Struktur.

Das Ziel dieser Arbeit ist es, diese Lücke zu schließen, indem ein System entwickelt wird, das direkt von digitalen Kunstwerken zur Musik generiert, ohne linguistische Vermittlung.

2. Methodik und Architektur

Die Arbeit besteht aus zwei Hauptkomponenten: der Erstellung eines großen Datensatzes und der Entwicklung eines neuen Frameworks.

A. Der Datensatz: ArtSound

Um das Training zu ermöglichen, wurde ein neuer, großskaliger multimodaler Datensatz namens ArtSound erstellt.

Umfang: 105.884 Paare aus Kunstwerken und Musikstücken.
Quellen: Die Kunstwerke stammen aus ArtGraph (basierend auf WikiArt/DBpedia, 18 Genres, 32 Stile), die Musik aus dem Free Music Archive (FMA) (Creative Commons lizenziert).
Captioning: Der Datensatz ist mit dualen Captions angereichert (Bild- und Audiocaptions).
- Bild-Captions: Generiert mittels LLaVA (Multimodal Large Language Model).
- Audio-Captions: Generiert durch LP-MusicCaps und fusioniert durch Qwen3.
- Qualitätssicherung: Es wurden zwei neue Metriken eingeführt, um die Caption-Qualität zu bewerten: ICScore (für Bilder, Kombination aus CLIP-Score und PAC-Score) und ACScore (für Audio, Kombination aus ROUGE-1 und BERT-Score). Captions unter einem Schwellenwert von 0,80 wurden regeneriert.
Pairing: Die Paarung von Bild und Audio erfolgte über die Cosine-Ähnlichkeit der Embeddings im gemeinsamen Raum von ImageBind. Obwohl die Ähnlichkeitswerte insgesamt moderat waren, erwies sich die direkte Bild-Audio-Paarung als semantisch am sinnvollsten.

B. Das Framework: Art2Mus

Art2Mus ist das erste Framework, das explizit für die direkte Bild-zu-Musik-Generierung ohne Text-Intermediär konzipiert wurde.

Basis-Architektur: Das System baut auf AudioLDM 2 (einem latenten Diffusionsmodell für Audio) auf. Der generative Backbone (VAE, UNet, Vocoder) bleibt eingefroren.
Visuelles Conditioning: Da AudioLDM 2 ursprünglich nur für Text-Conditioning ausgelegt ist (über einen GPT-2 Translator, der Text in den „Language of Audio" (LoA) Raum abbildet), wurde eine neue Schnittstelle eingeführt:
1. Visual Conditioning Extractor: Extrahiert Embeddings aus dem Kunstwerk mittels eines vortrainierten Vision-Encoders (CLIP oder ImageBind).
2. Image Aligner: Ein modulares Modul, das diese visuellen Embeddings (512-dim bei CLIP, 1024-dim bei ImageBind) in den Token-Raum von GPT-2 (768-dim) projiziert.
  - Bei CLIP wird ein Upscaler verwendet, um auf 1024 Dimensionen zu skalieren.
  - Ein Projektionsschicht bildet die Embeddings auf $N$ Tokens im GPT-2-Raum ab.
Lernprozess: Nur die Parameter des Image Aligners werden trainiert. Das Modell lernt, visuelle Embeddings direkt in den LoA-Conditioning-Raum zu übersetzen, der vom Diffusionsmodell zur Steuerung der Audio-Generierung genutzt wird.
Inferenz: Die Generierung erfolgt deterministisch mittels DDIM-Scheduler, gesteuert ausschließlich durch die visuellen Embeddings (plus einem optionalen Text-Prompt als Basis, aber ohne Bild-zu-Text-Übersetzung).

3. Wichtige Beiträge

ArtSound-Datensatz: Ein großskaliger, hochwertiger Datensatz von über 100k Kunst-Musik-Paaren mit validierten Captions und neuen Alignments-Metriken.
Erste direkte Bild-zu-Musik-Architektur: Art2Mus eliminiert die Notwendigkeit von Text-Intermediären und lernt direkte Korrespondenzen zwischen visuellen Strukturen und musikalischen Mustern.
Visueller Aligner: Eine innovative Methode, um vortrainierte Audio-Diffusionsmodelle (die nur Text verstehen) durch Projektion von Bild-Embeddings in den LoA-Raum für visuelle Eingaben nutzbar zu machen.
Benchmark: Etablierung eines neuen Forschungsziels für direktes Cross-Modal-Learning ohne semantische linguistische Supervision.

4. Ergebnisse

Objektive Evaluation

Metriken: Es wurden FAD (Fréchet Audio Distance), KL-Divergenz und ImageBind Score (IBSc) verwendet.
Vergleich: Art2Mus wurde gegen textbasierte Baselines (AudioLDM 2, AudioLDM 2-Music) und ein Bild-zu-Text-zu-Musik-System (Mozart's Touch) verglichen.
Ergebnisse:
- Die ImageBind-basierte Variante von Art2Mus erreichte den niedrigsten FAD (13) und eine sehr gute KL-Divergenz, was auf hohe perceptuelle Qualität hindeutet.
- Der ImageBind-Score (IBSc) zwischen Kunstwerk und generierter Musik war bei Art2Mus konkurrenzfähig (0,20368), obwohl das System keine Text-Supervision erhielt.
- Textbasierte Systeme zeigten zwar teilweise bessere Alignment-Scores (da sie explizite semantische Hinweise nutzen), aber Art2Mus erreicht unter den „schwierigeren" Bedingungen (direkte visuelle Konditionierung) eine beachtliche Leistung.
- ImageBind erwies sich als überlegen gegenüber CLIP, da es die multimodalen Beziehungen besser abbildet.

Subjektive Evaluation

Eine Studie mit 15 Teilnehmern (Musiker, Künstler, Laien) bewertete Audioqualität, Expressivität, Relevanz und Stimmungssynchronisation.
Ergebnis: Ein Trade-off wurde beobachtet: Die ImageBind-Variante lieferte etwas bessere Audioqualität, während die CLIP-Variante in Expressivität und Stimmungssynchronisation leicht besser abschnitt. Insgesamt wurde die Musik als kohärent und stilistisch konsistent mit den Kunstwerken empfunden.

5. Bedeutung und Ausblick

Dieses Werk etabliert die direkte Bild-zu-Musik-Generierung als eigenständiges und herausforderndes Forschungsgebiet.

Kulturelles Erbe & Kunst: Die Technologie ermöglicht neue Anwendungen im Bereich des digitalen Kulturerbes, z. B. die Generierung von Soundtracks für Museen oder interaktive Kunstinstallationen, die die visuelle Ästhetik direkt in Klang übersetzen.
Methodischer Fortschritt: Es zeigt, dass Diffusionsmodelle durch geschickte Re-Alignment der Conditioning-Spaces auch für Modalitäten genutzt werden können, für die sie ursprünglich nicht trainiert wurden.
Zukunft: Die Autoren sehen Potenzial in der Skalierung des Datensatzes, der Integration von Retrieval-Augmented-Generation (RAG) und der Entwicklung von erklärbarer KI (XAI), um zu verstehen, welche visuellen Merkmale welche musikalischen Strukturen beeinflussen.

Zusammenfassend beweist Art2Mus, dass es möglich ist, hochwertige Musik direkt aus visuellen Kunstwerken zu synthetisieren, ohne auf die Reduktion komplexer visueller Informationen auf Textbeschreibungen angewiesen zu sein.