VL-KGE: Vision-Language Models Meet Knowledge Graph Embeddings

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein riesiger, digitaler Kurator in einer unendlichen Bibliothek der Kunst und des Wissens. In dieser Bibliothek gibt es zwei Arten von Büchern:

Die Bilderbücher: Diese enthalten nur Bilder (wie ein Gemälde), aber keinen Text.
Die Lexika: Diese enthalten nur Textbeschreibungen (wie eine Biografie eines Künstlers), aber keine Bilder.

Das Problem ist: Die meisten Computer-Programme, die versuchen, diese Bibliothek zu verstehen, sind wie blinde Bibliothekare. Sie können nur lesen oder nur sehen, aber nicht beides gleichzeitig. Wenn sie versuchen, ein Gemälde mit dem Namen des Künstlers zu verbinden, stolpern sie oft, weil sie die Sprache der Bilder nicht verstehen und die Sprache der Texte nicht sehen können.

Das ist genau das Problem, das die Forscher in diesem Papier mit ihrer neuen Erfindung, VL-KGE, lösen wollen.

Das Problem: Die getrennten Welten

Bisherige Methoden haben wie zwei getrennte Teams gearbeitet:

Team A hat sich nur die Bilder angesehen.
Team B hat sich nur die Texte durchgelesen.

Dann haben sie versucht, ihre Ergebnisse zusammenzulegen. Das Ergebnis war oft chaotisch, wie wenn zwei Leute, die verschiedene Sprachen sprechen, versuchen, ein gemeinsames Puzzle zu legen, ohne sich zu verständigen. Zudem gab es ein weiteres Problem: In der echten Welt haben nicht alle Dinge beide Eigenschaften. Ein Gemälde hat ein Bild, aber kein Text. Ein Künstler hat einen Text, aber kein Bild. Die alten Systeme dachten fälschlicherweise, alles müsse beides haben, und brachen zusammen, wenn etwas fehlte.

Die Lösung: Der universelle Dolmetscher (VL-KGE)

Die Forscher haben nun einen neuen Ansatz entwickelt, den sie VL-KGE nennen. Stell dir das wie einen genialen universellen Dolmetscher vor, der nicht nur fließend "Bild" und "Text" spricht, sondern auch die "Logik der Beziehungen" versteht.

Hier ist, wie es funktioniert, mit ein paar einfachen Analogien:

1. Der vorgefertigte Dolmetscher (Vision-Language Models)
Statt den Computer von Grund auf neu zu lehren, was ein "Hund" oder ein "Gemälde" ist, nutzen sie einen bereits trainierten Super-Dolmetscher (wie CLIP oder BLIP). Dieser Dolmetscher wurde schon auf Milliarden von Bildern und Texten aus dem Internet trainiert. Er weiß bereits: "Oh, dieses Bild hier passt zu dem Wort 'Sonnenuntergang'." Er bringt also das Verständnis der Bilder und Texte schon mit.

2. Die Struktur des Netzes (Knowledge Graph)
Jetzt kommt der Clou: Der Computer nimmt diesen Dolmetscher und verbindet ihn mit einem riesigen, strukturierten Netz (dem Wissensgraphen). Stell dir das wie ein riesiges soziales Netzwerk vor, in dem jeder Knoten eine Person (oder ein Kunstwerk) ist und die Linien zwischen ihnen Beziehungen sind (z. B. "wurde gemalt von", "gehört zum Stil").

3. Die Magie der Anpassung (Modality Asymmetry)
Das ist der wichtigste Teil: Wenn das System auf ein Gemälde trifft, das nur ein Bild hat, nutzt es die "Bild-Kompetenz" des Dolmetschers. Wenn es auf einen Künstler trifft, der nur einen Text hat, nutzt es die "Text-Kompetenz". Es muss nicht warten, bis beides da ist. Es füllt die Lücken intelligent auf, indem es sagt: "Ich kenne den Stil dieses Künstlers aus dem Text, also kann ich vorhersagen, wie seine Bilder aussehen könnten, und umgekehrt."

Warum ist das so toll? (Die Ergebnisse)

Die Forscher haben ihr System an zwei Orten getestet:

Einem sauberen Testlabor (WN9-IMG): Hier hatten alle Dinge Bilder und Texte. Das System war hier schon sehr gut.
Der echten Welt (WikiArt): Hier haben sie riesige Datenbanken mit Kunstwerken, Künstlern und Stilen aufgebaut. Hier war das Problem der "fehlenden Teile" (manche haben nur Bilder, manche nur Text) sehr groß.

Das Ergebnis:
Das neue System war wie ein erfahrener Kunsthistoriker, der plötzlich die Fähigkeit hat, sowohl Bilder als auch Texte gleichzeitig zu lesen und zu verknüpfen.

Es konnte viel besser vorhersagen, welcher Künstler welches Bild gemalt hat.
Es konnte Zusammenhänge erkennen, die andere Systeme übersehen haben (z. B. dass zwei Künstler, die sich nie getroffen haben, den gleichen Stil teilen).
Besonders beeindruckend war, dass es auch mit "unvollständigen" Daten umgehen konnte. Es hat nicht aufgehört zu arbeiten, nur weil ein Bild fehlte; es hat einfach die Textinformationen genutzt, um die Lücke zu schließen.

Zusammenfassung für den Alltag

Stell dir vor, du suchst nach einem bestimmten Gemälde in einer riesigen Galerie, aber du kennst nur den Namen des Künstlers und hast das Bild nie gesehen.

Der alte Computer würde sagen: "Ich kann das nicht, ich sehe kein Bild."
Der neue Computer (VL-KGE) würde sagen: "Ich kenne den Stil dieses Künstlers aus seinen Texten, ich kenne die Epoche, und ich weiß, wie solche Bilder aussehen. Hier ist das Bild, das du suchst, und hier sind noch drei weitere, die du vielleicht auch mögen wirst."

Die Forscher haben also einen Weg gefunden, Computer nicht nur "sehen" oder "lesen" zu lassen, sondern ihnen beizubringen, wie man die Welt als ein ganzheitliches Netz aus Bildern, Worten und Bedeutungen versteht. Das ist ein großer Schritt für KI, um unsere Kultur, Kunst und unser Wissen wirklich zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Wissensgraphen (KGs) sind in der realen Welt oft multimodal und heterogen, d.h. Entitäten sind mit verschiedenen Modalitäten (z. B. Bilder, Textbeschreibungen) verknüpft. Herkömmliche Methoden zur Einbettung von Wissensgraphen (Knowledge Graph Embeddings, KGE) konzentrieren sich meist auf unimodale Settings und nutzen nur die Graphstruktur.

Zwei kritische Limitationen bestehen in aktuellen multimodalen KGE-Ansätzen:

Modality Misalignment (Fehlende Ausrichtung): Viele Methoden behandeln Modalitäten unabhängig voneinander, was zu einer schwachen semantischen Ausrichtung im gemeinsamen Embedding-Raum führt.
Modality Asymmetry (Modalitätsasymmetrie): Bestehende Ansätze gehen oft fälschlicherweise davon aus, dass alle Entitäten alle Modalitäten besitzen. In realen Szenarien (z. B. in der Kunst) haben jedoch manche Entitäten (wie Kunstwerke) primär visuelle Daten, während andere (wie Künstler oder Stilrichtungen) primär textbasiert sind. Herkömmliche Modelle scheitern oft an dieser Heterogenität.

Ziel der Arbeit ist es, ein Framework zu entwickeln, das die starke Kreuzmodalitätsausrichtung von Vision-Language-Modellen (VLMs) mit der strukturellen Modellierung von KGEs verbindet, um robuste Einbettungen für heterogene, multimodale Wissensgraphen zu lernen.

2. Methodik: VL-KGE

Das vorgeschlagene Framework VL-KGE integriert vortrainierte Vision-Language-Repräsentationen in strukturelle KGE-Modelle.

Architektur und Encoder:
- Das System nutzt vortrainierte Encoder für Bilder (z. B. ViT, CLIP, BLIP) und Text (z. B. BERT, CLIP).
- Diese Encoder können eingefroren (frozen) oder gemeinsam mit dem KGE-Modell feinabgestimmt (fine-tuned) werden.
- Falls die Embedding-Dimensionen der Modalitäten variieren, werden sie durch lineare Projektionen in einen gemeinsamen $d$ -dimensionalen Raum überführt.
Induktive Entitätsrepräsentation:
- Ein Kernmerkmal ist die Fähigkeit zur induktiven Inferenz. Das Modell kann Vorhersagen für neue, im Training nicht gesehene Entitäten treffen, ohne diese spezifisch neu zu trainieren.
- Für eine Entität $e$ werden die verfügbaren Modalitäten (strukturell, visuell, textuell) fusioniert. Wenn eine Entität keine Struktur-Embedding-Parameter hat (weil sie neu ist), stützt sich die Repräsentation vollständig auf die vortrainierten VLM-Features.
- Für komplexe Backbones (wie ComplEx, RotatE) wird die imaginäre Komponente entweder gelernt oder aus der realen Komponente abgeleitet, um die Induktivität zu bewahren.
Fusionsmechanismen:
Das Framework bietet drei Strategien, um verfügbare Modalitäten zu einem einheitlichen Entitäts-Embedding zu fusionieren:
1. Durchschnittliche Fusion (Average): Mittelwert über alle verfügbaren Modalitäten.
2. Konkatenation (Concatenation): Stapeln der Embeddings (mit Zero-Padding für fehlende Modalitäten).
3. Gewichtete Fusion (Weighted): Lernen von Gewichten ( $\alpha_m$ ) für die relative Wichtigkeit jeder Modalität.
Trainingsziel:
Das Modell wird mit einer logistischen Verlustfunktion trainiert, um positive Tripel $(h, r, t)$ höher zu bewerten als negative (durch zufällige Korruption erzeugte) Tripel. Es ist kompatibel mit gängigen KGE-Backbones wie TransE, DistMult, ComplEx und RotatE.

3. Schlüsselbeiträge

VL-KGE Framework: Ein neues Paradigma, das vortrainierte Vision-Language-Repräsentationen nahtlos in strukturelle KGE-Modelle integriert, um multimodale Einbettungen zu lernen.
Umgang mit Asymmetrie: Das Framework adressiert explizit das Problem der Modalitätsasymmetrie, indem es Entitäten nur mit ihren verfügbaren Modalitäten repräsentiert und sowohl intra- als auch inter-modale Interaktionen modelliert.
Neue Datensätze (WikiArt-MKGs): Die Autoren stellen zwei neue, groß angelegte Fine-Art-Wissensgraphen vor:
- WikiArt-MKG-v1: Ein Fokus-Datensatz mit Kunstwerken und Attributen.
- WikiArt-MKG-v2: Eine signifikant erweiterte Version mit 217.000 Kunstwerken, 4.200 Künstlern und 22 Relationstypen, die komplexe Beziehungen (Künstler-zu-Künstler, Kunstwerk-zu-Kunstwerk) und starke Modalitätsasymmetrie aufweist.
Empirische Validierung: Umfassende Experimente zeigen, dass VL-KGE die Leistung bei Link-Prediction-Aufgaben konsistent verbessert, insbesondere in Szenarien mit unvollständigen Modalitäten.

4. Ergebnisse

Die Evaluation erfolgte auf dem Standard-Benchmark WN9-IMG (vollständige Modalitäten) und den neuen WikiArt-MKGs (asymmetrische Modalitäten).

Leistung auf WN9-IMG: VL-KGE übertrifft unimodale Baselines und konkurriert mit oder verbessert den Stand der Technik (z. B. MMKRL, OTKGE). Varianten, die CLIP als Basis-Encoder nutzen, erzielten oft die besten Ergebnisse, was auf die Stärke der kontrastiven Vorausbildung für die semantische Ausrichtung hindeutet.
Leistung auf WikiArt-MKGs:
- In den asymmetrischen Szenarien (Kunstwerke haben Bilder, Künstler nur Text) übertraf VL-KGE deutlich sowohl unimodale als auch multimodale Baselines, die separate Encoder ohne Kreuzmodalitätsausrichtung nutzen.
- Zero-Shot-Performance: Selbst ohne KGE-Training erzielten reine VLM-Features (Zero-Shot) eine nicht-triviale Leistung, was zeigt, dass VLMs bereits relevante semantische Strukturen kodieren. Die Integration in KGE (VL-KGE) steigerte diese jedoch erheblich.
- Qualitative Analyse: Im Gegensatz zu Zero-Shot-CLIP, das oft nur oberflächliche visuelle Ähnlichkeiten erkennt, ermöglicht VL-KGE durch die Einbeziehung der Graphstruktur tiefgreifendere, historisch und kontextuell korrekte Vorhersagen (z. B. korrekte Zuordnung von Künstlern zu Werken oder Einflussnetzwerke).

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass die Kombination von Vision-Language-Modellen mit strukturierten Wissensgraphen einen signifikanten Fortschritt für die Verarbeitung realer, heterogener Daten darstellt.

Robustheit: VL-KGE ist robust gegenüber fehlenden Datenmodalitäten, was es für reale Anwendungen (wie digitale Museen oder historische Archive) essenziell macht, wo Daten oft unvollständig sind.
Induktive Fähigkeiten: Die Fähigkeit, neue Entitäten ohne Retraining zu verarbeiten, macht das System skalierbar und anwendbar in dynamischen Umgebungen.
Anwendungsbereich: Die vorgestellten Fine-Art-Datensätze und das Framework bieten eine neue Grundlage für die Forschung im Bereich der digitalen Geisteswissenschaften, des kulturellen Erbes und der multimodalen Informationsretrieval-Systeme.

Zusammenfassend schlägt VL-KGE eine Brücke zwischen der starken semantischen Ausrichtung moderner VLMs und der relationalen Reasoning-Fähigkeit von Wissensgraphen, um ein einheitliches, multimodales Verständnis komplexer Wissensstrukturen zu ermöglichen.

VL-KGE: Vision-Language Models Meet Knowledge Graph Embeddings

Das Problem: Die getrennten Welten

Die Lösung: Der universelle Dolmetscher (VL-KGE)

Warum ist das so toll? (Die Ergebnisse)

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: VL-KGE

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks