From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

Vom Pixel zum Wort: Wie NEO Bilder und Sprache endlich „auf einen Nenner" bringt

Stell dir vor, du möchtest ein Team aus zwei Spezialisten bauen, das sowohl Bilder als auch Texte versteht. Bisher hat die Technik meist einen modularen Ansatz verfolgt. Das ist wie ein Orchester, bei dem ein Violinist (der Bild-Experte) und ein Sänger (der Sprach-Experte) nebeneinander stehen, aber durch einen langen, komplizierten Kabelsalat (den „Projektor") verbunden sind. Sie müssen erst lernen, wie sie zusammenarbeiten, und oft verstehen sie sich nicht richtig, weil sie aus unterschiedlichen Welten kommen.

Die Autoren dieses Papers fragen sich: Warum nicht einfach ein Super-Genie bauen, das beides von Geburt an kann?

Das ist genau das, was sie mit NEO gemacht haben. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Kabelsalat" der alten Modelle

Bisherige KI-Modelle (die „modularen") sind wie ein Baukasten. Man nimmt einen fertigen Bild-Scanner und klebt ihn an einen fertigen Sprach-Chatbot.

Das Problem: Der Bild-Scanner denkt in Pixeln, der Chatbot in Wörtern. Damit sie reden können, muss man sie mühsam „übersetzen". Das kostet Zeit, Rechenleistung und führt oft zu Missverständnissen. Es ist, als würde man versuchen, zwei Menschen zu verbinden, die unterschiedliche Muttersprachen sprechen, indem man sie durch einen Dolmetscher schickt, der nur halbe Sätze versteht.

2. Die Lösung: NEO – Der „native" Alleskönner

NEO ist ein nativer Vision-Language-Model. Das bedeutet, es wurde nicht aus zwei verschiedenen Teilen zusammengesetzt. Es ist von Grund auf (von „First Principles") so gebaut, dass Bilder und Sprache von Anfang an eins sind.

Stell dir NEO nicht als zwei getrennte Köpfe vor, sondern als ein einziges Gehirn, das von Anfang an lernt, dass ein roter Apfel (Bild) und das Wort „Apfel" (Text) dasselbe Ding sind.

3. Die drei genialen Tricks von NEO

Um dieses „Super-Gehirn" zu bauen, haben die Forscher drei wichtige Werkzeuge entwickelt:

Der „Einheits-Code" (Native Primitives):
Früher mussten Bilder in eine flache Liste umgewandelt werden, damit der Sprach-Teil sie verstehen konnte. NEO hingegen behält die Struktur des Bildes bei. Es weiß genau, wo oben, unten, links und rechts ist.
- Die Analogie: Stell dir vor, du liest ein Buch. Bei alten Modellen wurden die Bilder in das Buch gerissen und in eine lange Kette von Wörtern verwandelt. Bei NEO ist das Bild wie eine farbige Illustration direkt auf der Seite, die du gleichzeitig mit dem Text liest. Das Gehirn versteht sofort den Zusammenhang.
Der „Zauber-RoPE" (Native Rotary Position Embedding):
KI-Modelle brauchen eine Art „Adresssystem", um zu wissen, wo etwas ist. NEO hat ein neues, super-detailliertes Adresssystem erfunden. Es kann nicht nur sagen „das ist das 5. Wort", sondern auch „das ist das 5. Pixel in der 3. Zeile und 4. Spalte".
- Die Analogie: Früher war das Adresssystem wie eine einfache Hausnummer. NEO hat ein GPS-System, das nicht nur die Straße, sondern auch den Stockwerk und die Fensterposition kennt. So kann es komplexe räumliche Beziehungen (z. B. „der Hund sitzt auf dem Tisch") viel besser verstehen.
Die „Lern-Phasen" (Pre-Buffer & Post-LLM):
Das ist vielleicht der cleverste Trick. NEO lernt in zwei Phasen, die aber nahtlos ineinander übergehen:
1. Phase 1 (Der Vorläufer): Ein Teil des Modells (der „Pre-Buffer") lernt zuerst, wie man Bilder in eine Sprache verwandelt. Er ist wie ein junger Schüler, der erst mal die Grundlagen lernt.
2. Phase 2 (Der Meister): Dann schließt sich der Rest des Modells an, der bereits ein erfahrener Sprach-Experte ist. Der Vorläufer gibt sein Wissen an den Meister weiter, und sie wachsen zu einem einzigen, starken Team zusammen.
- Die Analogie: Stell dir vor, ein junger Maler (der Bild-Teil) lernt erst, wie man Farben mischt. Dann trifft er auf einen erfahrenen Dichter (den Sprach-Teil). Statt dass der Dichter dem Maler sagt, was er tun soll, lernen sie gemeinsam, wie man ein Bild in ein Gedicht verwandelt. Am Ende sind sie untrennbar verbunden.

4. Warum ist das so wichtig?

Effizienz: NEO braucht weniger Rechenschritte, weil es keine „Übersetzer" zwischen Bild und Text braucht.
Genauigkeit: Da es Bilder und Sprache von Anfang an gemeinsam lernt, macht es weniger Fehler. Es versteht besser, was auf einem Bild zu sehen ist, und kann dazu passendere Texte schreiben.
Zukunft: NEO zeigt, dass wir in Zukunft keine riesigen, komplizierten Baukästen mehr brauchen, um KI zu bauen. Ein einziges, gut durchdachtes Modell kann alles.

Fazit

Die Forscher sagen im Grunde: „Hört auf, KI-Module wie Lego-Steine zusammenzukleben. Baut ein Modell, das von Natur aus versteht, dass ein Bild und ein Wort zwei Seiten derselben Medaille sind."

Mit NEO haben sie gezeigt, dass man mit weniger Daten und weniger Komplexität fast genauso gute Ergebnisse erzielen kann wie mit den riesigen, komplizierten Modellen der Konkurrenz. Es ist ein Schritt hin zu einer KI, die die Welt so sieht und versteht, wie wir Menschen es tun: nicht getrennt in Bilder und Wörter, sondern als eine einzige, zusammenhängende Erfahrung.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Aktuelle Vision-Language-Modelle (VLMs) folgen überwiegend einem modularen Ansatz. Dabei werden ein vortrainierter visueller Encoder (z. B. ViT), ein Projektionslayer und ein Large Language Model (LLM) kombiniert. Obwohl diese Architekturen erfolgreich sind, leiden sie unter mehreren fundamentalen Einschränkungen:

Induktive Verzerrungen: Der visuelle Encoder bringt starke, starre Vorurteile aus dem Vortraining mit, die die Flexibilität bei Bildauflösung und Aspektverhältnissen einschränken.
Komplexe Infrastruktur: Die Notwendigkeit mehrstufiger Trainingsprozesse (Alignment, SFT) und die Harmonisierung heterogener Komponenten erhöhen den Rechenaufwand.
Verlust von Wissen: Die Anpassung von visuellen Tokens an das LLM kann die ursprünglichen linguistischen Fähigkeiten des LLMs destabilisieren oder verfälschen.

Im Gegensatz dazu stehen Native VLMs, die Bilder und Text in einem einzigen, monolithischen Modell verarbeiten (Early Fusion). Bisherige Versuche (z. B. Fuyu, EVE) scheiterten jedoch oft an Ineffizienzen, Optimierungsinstabilität oder der Unfähigkeit, die spezifischen Eigenschaften beider Modalitäten (z. B. bidirektionale Aufmerksamkeit für Bilder vs. kausale für Text) effektiv zu vereinen.

Das Paper stellt die Frage: Welche grundlegenden Eigenschaften müssen native VLMs besitzen, um mit modularen Systemen konkurrenzfähig zu sein, und wie kann ein zugänglicher, skalierbarer Ansatz realisiert werden?

2. Methodik: Die NEO-Architektur

Die Autoren stellen NEO vor, eine neue Familie nativer VLMs, die von Grund auf (from first principles) entwickelt wurde. Der Kernansatz basiert auf Native VLM Primitives, die Encoding, Alignment und Reasoning in einem einzigen Modul vereinen.

A. Native VLM Primitive

Das fundamentale Bauelement von NEO integriert drei Schlüsselprinzipien:

Flexible Positionskodierung (Native-RoPE):
- Herkömmliche 1D-RoPE oder einfache 3D-RoPE-Ansätze werden durch eine Native Rotary Position Embedding ersetzt.
- Die Frequenzen und Kanäle für Zeit ( $T$ ), Höhe ( $H$ ) und Breite ( $W$ ) werden strikt entkoppelt.
- Index-Zuweisung: Text-Token behalten ihre $T$ -Indizes, während $H$ und $W$ auf Null gesetzt werden. Bild-Token haben konstante $T$ -Indizes, aber eindeutige $H/W$ -Indizes für die räumliche Position.
- Frequenz-Allokation: Unterschiedliche Basisfrequenzen ( $\Theta_T, \Theta_H, \Theta_W$ ) werden zugewiesen, um die Diskrepanz zwischen langen zeitlichen Sequenzen und räumlichen Details zu überbrücken. Dies verhindert, dass lange Textsequenzen die räumliche Modellierung dominieren.
Multi-Head Native Attention (MHNA):
- Das Modell nutzt eine gemischte Aufmerksamkeit: Bild-Token verwenden bidirektionale Aufmerksamkeit (wie ein visueller Encoder), um räumliche Abhängigkeiten vollständig zu erfassen. Text-Token nutzen kausale Aufmerksamkeit, um die autoregressive Generierung zu gewährleisten.
- Dies ermöglicht eine effiziente Interaktion innerhalb der Modalitäten und zwischen ihnen.
Dichte Architektur:
- Im Gegensatz zu MoE- oder Divide-and-Conquer-Ansätzen nutzt NEO eine dichte Architektur, die durch die Native-RoPE und MHNA die Vorteile beider Welten vereint.

B. Trainingsparadigma: Pre-Buffer & Post-LLM

Um das Problem der visuellen Lernkurve bei gleichzeitigem Erhalt linguistischer Fähigkeiten zu lösen, wird das Modell in zwei Phasen unterteilt (während des Pre-Trainings):

Pre-Buffer (Die ersten $L_1$ Schichten): Diese Schichten werden zufällig initialisiert und dienen dazu, Pixel-Informationen in eine für das LLM verständliche Repräsentation zu transformieren. Sie lernen visuelle Konzepte von Grund auf.
Post-LLM (Die restlichen $L_2$ Schichten): Diese Schichten werden mit den Gewichten eines vortrainierten LLMs initialisiert (insbesondere RMSNorm, FFN und zeitliche Q-Köpfe). Die neuen $H/W$ -Köpfe werden initialisiert (Q aus dem LLM, K auf Null gesetzt).
Dynamische Fusion: Während des Pre-Trainings steuert das Post-LLM das visuelle Lernen. In späteren Phasen (Mid-Training und SFT) verschmilzt das Pre-Buffer mit dem Post-LLM zu einem einheitlichen Backbone, der Aufgaben autonom zuweist. Der Pre-Buffer bleibt als wiederverwendbarer, vortrainierter Asset erhalten.

C. Trainingsdaten und -prozess

NEO wurde mit 390 Millionen Bild-Text-Paaren trainiert (345M Pre-Training, 40M Mid-Training, 4M SFT).

Pre-Training: Fokus auf visuelles Verständnis von Grund auf, wobei das LLM-Gewicht eingefroren ist, um linguistisches Wissen zu schützen.
Mid-Training: Stärkung der Ausrichtung (Alignment) und Verbesserung der Hochauflösungs- und OCR-Fähigkeiten.
Supervised Fine-Tuning (SFT): Optimierung für komplexe Anweisungen und Dialoge.

3. Schlüsselbeiträge

Definition nativer Primitive: Die Autoren formulieren klare Prinzipien für native VLMs (gemeinsamer semantischer Raum, nahtlose Integration, inhärente Cross-Modal-Eigenschaften).
NEO-Architektur: Ein einheitliches Framework, das bidirektionale Bildverarbeitung und kausale Textgenerierung in einem einzigen Transformer-Block vereint, ohne separate Encoder.
Native-RoPE: Ein neuartiger Ansatz zur Positionskodierung, der räumliche ( $H, W$ ) und zeitliche ( $T$ ) Dimensionen mit unterschiedlichen Frequenzen und Kanälen behandelt, was die Modellierung von Langzeit- und Lokalabhängigkeiten verbessert.
Pre-Buffer/Post-LLM Strategie: Ein effizientes Trainingsschema, das die Stabilität des LLMs bewahrt und gleichzeitig visuelles Lernen von Null ermöglicht, was die Notwendigkeit teurer visueller Encoder-Distillation eliminiert.
Demokratisierung: Bereitstellung wiederverwendbarer Komponenten und Open-Source-Modelle (NEO-2.2B und NEO-9B), die den Einstieg in native VLM-Forschung erleichtern.

4. Ergebnisse

NEO wurde auf einer Vielzahl von Benchmarks (VLMEvalKit) evaluiert und zeigt beeindruckende Leistungen:

Vergleich mit modularen Modellen:
- NEO-2.2B und NEO-9B erreichen eine Leistung, die mit führenden modularen Modellen (wie Qwen2-VL, InternVL2.5, InternVL3) vergleichbar ist, obwohl sie deutlich weniger Trainingsdaten nutzen und keine Reinforcement Learning (RL) Techniken einsetzen.
- In Benchmarks wie MMMU, MMBench und MMVet schließt NEO die Lücke zu Top-Modulen signifikant.
Vergleich mit anderen nativen Modellen:
- NEO übertrifft bestehende native Modelle (z. B. Mono-InternVL, HoVLE, EVE, Chameleon) in fast allen Kategorien deutlich, insbesondere in visuellen Wahrnehmungsaufgaben und Reasoning.
- Es zeigt, dass native Modelle ohne visuelle Encoder-Supervision (nur durch Text-Bilder-Paare) hochleistungsfähig sein können.
Effizienz:
- Durch die Verwendung von Pre-Buffer-Assets kann die Trainingszeit und der Ressourcenbedarf für zukünftige native Modelle drastisch reduziert werden.
- Die Architektur ist skalierbar und funktioniert gut in kleineren Größen (2.2B Parameter), was für Edge-Deployments relevant ist.

5. Bedeutung und Ausblick

Das Paper markiert einen Paradigmenwechsel in der Entwicklung multimodaler Systeme. Es beweist, dass native, einheitliche Architekturen nicht nur theoretisch möglich, sondern praktisch leistungsfähig und skalierbar sind.

Wegfall von Modulen: Die Notwendigkeit separater visueller Encoder und komplexer Alignmentschichten entfällt, was die Infrastruktur vereinfacht.
Skalierbarkeit: Die Ergebnisse deuten darauf hin, dass native VLMs mit zunehmender Datenmenge und Modellgröße das Potenzial haben, modulare Systeme vollständig zu verdrängen.
Zukunftspotenzial: Die Architektur ist so gestaltet, dass sie sich nahtlos auf Video-Verständnis, Generierung und Embodied AI erweitern lässt, da sie räumliche und zeitliche Beziehungen von Grund auf integriert.

Zusammenfassend bietet NEO einen robusten, effizienten und skalierbaren Baustein für die nächste Generation von Vision-Language-Modellen, der die Grenzen zwischen visueller und linguistischer Intelligenz in einem einzigen neuronalen Netz auflöst.