Xray-Visual Models: Scaling Vision models on Industry Scale Data

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem Kind beizubringen, die Welt zu verstehen. Bisher haben wir dem Kind nur ein paar hundert Bilder aus einem Lehrbuch gezeigt und es dann auf einen Test geschickt. Das Kind bestand den Test, aber sobald es auf die echte Straße ging, war es verwirrt.

Das ist das Problem, das das Team von Meta AI mit Xray-Visual lösen wollte. Sie haben eine neue Art von „Augen" für Computer entwickelt, die nicht nur aus Büchern lernen, sondern aus dem gesamten, chaotischen Internet.

Hier ist die Geschichte von Xray-Visual, einfach erklärt:

1. Der riesige Datenschatz: Von der Bibliothek zum Ozean

Stellen Sie sich vor, die meisten KI-Modelle lernen in einer kleinen, sauberen Bibliothek mit 10.000 perfekten Bildern. Xray-Visual hingegen wurde in einem Ozean aus 15 Milliarden Bildern und 10 Milliarden Videos trainiert. Das sind Posts von Facebook und Instagram.

Aber ein Ozean ist voller Müll (Werbung, Spam, unsinnige Kommentare). Wenn man einem Kind einfach alles zeigt, lernt es vielleicht, dass ein „Hund" auch ein „Pizza-Schnitzel" sein kann, weil jemand das falsch getaggt hat.

Die Lösung: Das Team baute einen riesigen „Sieb-Maschinen"-Prozess. Sie filterten den Müll heraus, sortierten die Bilder nach Themen (damit das Kind nicht nur 1000 Bilder von Hunden, sondern auch von seltenen Insekten sieht) und machten die Beschriftungen sauber. Sie haben das Chaos in eine strukturierte Welt verwandelt.

2. Der dreistufige Lernplan: Vom Malen zum Sprechen

Statt das Kind sofort zu einem schweren Test zu schicken, gaben sie ihm einen cleveren Lernplan in drei Schritten:

Schritt 1: Das Puzzle-Spiel (Selbstüberwachtes Lernen):
Das Kind bekommt ein Bild, bei dem 75% der Teile fehlen. Es muss raten, was dahinter ist. Das trainiert das Gehirn, Muster zu erkennen, ohne dass jemand ihm sagt, was es ist. Es lernt: „Oh, hier ist ein Auge, also muss da unten eine Nase sein."
Schritt 2: Das Etikettieren (Hashtag-Klassifizierung):
Jetzt zeigt man dem Kind Bilder mit Hashtags (z. B. #Sonnenuntergang, #Hund). Es lernt, die visuellen Muster mit den Wörtern zu verknüpfen.
Schritt 3: Das Gespräch (Kontrastives Lernen):
Hier kommt der Clou. Das Kind sieht ein Bild und einen Text. Es muss lernen, dass diese beiden zusammengehören. Aber nicht irgendein Text – sie nutzten LLM2CLIP.
- Die Analogie: Früher benutzten Computer für Texte einen kleinen, starren Wörterbuch-Eintrag. Xray-Visual nutzt stattdessen einen großen, klugen Sprach-Assistenten (wie LLaMA) als Übersetzer. Dieser Assistent versteht Nuancen, Witze und lange Beschreibungen viel besser als ein einfaches Wörterbuch. Das Ergebnis: Das Bild und der Text verstehen sich perfekt, auch wenn die Beschreibung kompliziert ist.

3. Der effiziente Superheld: Schneller und schlanker

Früher mussten Computer für ein hochauflösendes Bild tausende von kleinen Puzzleteilen (Tokens) verarbeiten. Das war langsam und teuer, wie ein Lastwagen, der nur eine Postkarte transportiert.
Xray-Visual nutzt eine Technik namens EViT.

Die Analogie: Stellen Sie sich vor, Sie schauen durch ein Fenster. Ein normaler Computer schaut auf jedes einzelne Ziegelstein des Fensterrahmens. Xray-Visual schaut nur auf die wichtigen Teile (das Bild in der Mitte) und ignoriert den leeren Himmel oder den Rahmen, der nichts zur Geschichte beiträgt.
Das Ergebnis: Es ist 4-mal schneller und braucht viel weniger Rechenleistung, ist aber trotzdem genauer als die alten Modelle.

4. Warum ist das wichtig? (Der Realitäts-Check)

Das Schönste an Xray-Visual ist nicht nur, dass es Tests in der Schule (akademische Benchmarks) besteht. Es ist, dass es im echten Leben funktioniert.

Das Problem: Andere Modelle sind wie Sportler, die nur im Stadion trainieren. Sobald sie auf den Asphalt der Stadt kommen, stolpern sie.
Xray-Visual: Weil es auf echten Social-Media-Daten trainiert wurde, kennt es die „Straßen". Es erkennt Dinge auch dann, wenn das Bild unscharf ist, das Licht schlecht ist oder das Objekt etwas anders aussieht als im Lehrbuch. Es ist robuster gegen „Domain Shift" (den Wechsel vom Labor in die echte Welt).

Zusammenfassung in einem Satz

Xray-Visual ist wie ein polymathischer Weltenbummler: Es hat Milliarden von Bildern und Videos gesehen, gelernt, was wirklich wichtig ist, ignoriert den Müll, versteht komplexe Sprache dank eines klugen Assistenten und ist dabei so schnell und effizient, dass es überall eingesetzt werden kann – von der Suche nach dem perfekten Werbevideo bis hin zur Erkennung von Inhalten in sozialen Medien.

Es zeigt uns, dass man für eine wirklich intelligente KI nicht nur mehr Daten braucht, sondern bessere Daten und einen besseren Lernplan.

Xray-Visual Models: Scaling Vision models on Industry Scale Data

1. Der riesige Datenschatz: Von der Bibliothek zum Ozean

2. Der dreistufige Lernplan: Vom Malen zum Sprechen

3. Der effiziente Superheld: Schneller und schlanker

4. Warum ist das wichtig? (Der Realitäts-Check)

Zusammenfassung in einem Satz

Titel: Xray-Visual: Skalierung von Vision-Modellen auf Industriedatenbasis

1. Problemstellung

2. Methodik

A. Datenerstellung und Kuratierung (ViSE & URU)

B. Modellarchitektur

C. Drei-Stufen-Trainingspipeline

D. Training-Strategien

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Xray-Visual Models: Scaling Vision models on Industry Scale Data

1. Der riesige Datenschatz: Von der Bibliothek zum Ozean

2. Der dreistufige Lernplan: Vom Malen zum Sprechen

3. Der effiziente Superheld: Schneller und schlanker

4. Warum ist das wichtig? (Der Realitäts-Check)

Zusammenfassung in einem Satz

Titel: Xray-Visual: Skalierung von Vision-Modellen auf Industriedatenbasis

1. Problemstellung

2. Methodik

A. Datenerstellung und Kuratierung (ViSE & URU)

B. Modellarchitektur

C. Drei-Stufen-Trainingspipeline

D. Training-Strategien

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks