From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler costruire un cervello digitale capace di vedere le immagini e leggere i testi allo stesso tempo, come fa un essere umano.

Il Problema: La "Torre di Babele" Modulare

Fino a poco tempo fa, i migliori modelli di intelligenza artificiale (chiamati VLM, o Modelli Visione-Linguaggio) funzionavano come una torre di Babele o un'orchestra dove ogni musicista parla una lingua diversa e deve essere tradotto in tempo reale.

Come funzionavano prima: Avevano un "occhio" (un encoder visivo) che guardava la foto e la trasformava in un codice astratto. Poi, un "traduttore" (un proiettore) cercava di spiegare questo codice a un "cervello" (un modello linguistico) che parlava solo parole.
Il difetto: È come se tu dovessi descrivere un'immagine a un amico che non la vede, usando solo parole strane, e poi lui provasse a capirla. C'è sempre un po' di confusione, un ritardo, e spesso perdono i dettagli fini. Inoltre, addestrare queste tre parti separate è costoso e complicato.

La Soluzione: NEO, il "Poliedro" Nativo

Gli autori di questo paper hanno creato NEO. Invece di costruire tre pezzi separati e unirli, hanno costruito un unico organismo che nasce già capace di vedere e parlare.

Ecco come funziona, usando delle metafore:

1. L'Architettura: Un Unico Strumento, Non Tre

Immagina che i vecchi modelli fossero come un martello, una sega e un cacciavite tenuti insieme con lo scotch. Funzionano, ma sono ingombranti.
NEO è come un coltellino svizzero o un tuttofare: ogni parte del suo corpo è progettata per gestire sia i pixel (i puntini dell'immagine) che le parole allo stesso modo. Non c'è bisogno di "traduttori" intermedi. I pixel e le parole parlano la stessa lingua fin dal primo istante.

2. I "Mattoni" Intelligenti (Primitive)

Per costruire questo cervello unico, hanno inventato dei nuovi "mattoni" fondamentali chiamati Primitive.

L'analogia: Pensa a come noi umani impariamo. Non impariamo prima a vedere e poi a parlare. Impariamo a collegare "rosso" con "mela" mentre guardiamo la mela.
La novità di NEO: I suoi mattoni sono progettati per capire che un'immagine ha una larghezza, un'altezza e una sequenza temporale (se è un video), proprio come un libro ha righe e colonne. Usano una specie di "bussola interna" (chiamata Native-RoPE) che dice al modello esattamente dove si trova ogni pezzo dell'immagine e ogni parola nel testo, senza confondersi.

3. La Strategia di Apprendimento: "Prima la Base, Poi la Logica"

Hanno diviso l'addestramento in due fasi, come se fosse l'educazione di un bambino:

Fase 1 (Pre-Buffer): È come un asilo nido. In questa fase, il modello impara a guardare le immagini e a collegarle alle parole in modo molto semplice e diretto. Qui "sbaglia" e impara dalle immagini grezze, senza essere disturbato dalla sua conoscenza linguistica preesistente.
Fase 2 (Post-LLM): È come la scuola superiore. Una volta che il modello ha imparato a vedere, si fonde con la sua parte "intelligente" (quella che già sava parlare e ragionare). Ora, tutto il sistema lavora insieme per ragionare su ciò che vede.

Perché è una Rivoluzione?

Efficienza: Non spreca energia a tradurre immagini in parole e viceversa. È tutto fluido.
Precisione: Capisce meglio i dettagli. Se guardi un'immagine con molto testo o una mappa complessa, NEO non si perde, perché "vede" e "legge" contemporaneamente.
Accessibilità: Hanno reso tutto più semplice da costruire. Invece di dover assemblare pezzi di diversi laboratori, ora si può costruire un modello nativo partendo da zero con questi nuovi mattoni.

Il Risultato

Hanno addestrato NEO con circa 390 milioni di esempi (immagini e testi).
Il risultato? Un modello che, pur essendo più semplice e "nativo" (non modulare), rivalizza con i giganti complessi che usano la vecchia architettura a pezzi.

In sintesi:
Se i vecchi modelli erano come un'orchestra dove il violino e la chitarra suonavano in stanze diverse e si sentivano solo attraverso un muro, NEO è un'orchestra dove tutti gli strumenti sono nella stessa stanza, suonano insieme e creano una musica perfetta e armoniosa fin dal primo accordo.

Questo apre la strada a un futuro in cui l'intelligenza artificiale non solo "vede" e "parla", ma capisce il mondo visivo e linguistico come un'unica cosa indivisibile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema e il Contesto

Attualmente, la maggior parte dei modelli Vision-Language (VLM) adotta un'architettura modulare. Questi sistemi integrano un Encoder Visivo (VE) pre-addestrato (es. ViT), un proiettore e un Large Language Model (LLM) tramite meccanismi di adattamento (es. cross-attention). Sebbene efficaci, questi approcci presentano limiti fondamentali:

Bias induttivi rigidi: L'uso di VE pre-addestrati impone vincoli sulla risoluzione, sul rapporto d'aspetto e sulla flessibilità dell'encoding visivo.
Complessità infrastrutturale: Richiedono fasi di addestramento multi-stadio e allineamento complesso tra moduli separati.
Disallineamento: La separazione tra visione e linguaggio impedisce un'integrazione profonda delle proprietà intrinseche di ciascun modality, lasciando irrisolti i problemi di equilibrio inter-modale.

I VLM nativi (che processano visione e linguaggio in un unico modello monolitico) sono emersi come alternativa, ma spesso soffrono di instabilità nell'ottimizzazione, perdita di conoscenze linguistiche preesistenti e difficoltà nel gestire conflitti visione-linguaggio durante l'addestramento "da zero".

2. Metodologia: L'Architettura NEO

Il paper introduce NEO, un VLM nativo costruito "da primi principi" (first principles) per colmare il divario con i modelli modulari. L'architettura si basa su primitive VLM native unificate e su una strategia di addestramento innovativa.

A. Primitive VLM Native

Il cuore di NEO è un blocco neurale unificato che integra encoding, allineamento e ragionamento in un singolo modulo. Le componenti chiave includono:

Posizional Encoding Flessibile (Native-RoPE):
- A differenza dei RoPE 1D o 3D standard, NEO introduce un Native Rotary Position Embedding che scompone completamente le dimensioni Temporale (T), Altezza (H) e Larghezza (W).
- Assegna frequenze di base distinte per ciascuna dimensione ( $\Theta_T, \Theta_H, \Theta_W$ ), permettendo di gestire relazioni locali e a lungo raggio sia spaziali che temporali senza disturbare le capacità linguistiche dell'LLM.
- Utilizza un'allocazione di canali e indici specifica: per il testo, H e W sono azzerati; per le immagini, T è costante mentre H e W codificano la posizione spaziale.
Multi-Head Native Attention (MHNA):
- Implementa un'attenzione mista: i token di testo seguono un'attenzione causale (autoregressiva), mentre i token visivi utilizzano un'attenzione bidirezionale completa (simile a un encoder visivo), permettendo interazioni esaustive tra tutti i token visivi.
- Questo design cattura dipendenze spaziali ricche e facilita l'allineamento pixel-parola.
Espansione delle Dimensioni:
- Vengono aggiunte nuove dimensioni per le teste di Query (Q) e Key (K) dedicate a H e W, aumentando i parametri di circa il 10% rispetto a un blocco Transformer standard, ma mantenendo la compatibilità con gli LLM pre-addestrati.

B. Strategia di Addestramento: Pre-Buffer e Post-LLM

Per mitigare i conflitti visione-linguaggio e preservare le capacità linguistiche, NEO adotta una fase di addestramento transitoria:

Pre-Buffer: Le prime $L_1$ layer del modello sono inizializzate casualmente e dedicate all'encoding visivo e all'allineamento iniziale.
Post-LLM: I layer successivi ( $L_2$ ) ereditano i pesi (RMSNorm, FFN, Q/K) da un LLM pre-addestrato (es. Qwen3), garantendo che le capacità linguistiche e di ragionamento siano preservate fin dall'inizio.
Fusione: Durante il pre-training, solo il Pre-Buffer e i nuovi parametri Q/K vengono ottimizzati. Nelle fasi successive (Mid-training e SFT), il modello viene ottimizzato end-to-end, fondendo Pre-Buffer e Post-LLM in un'unica architettura monolitica che alloca autonomamente le capacità.

C. Dataset e Scala

NEO è stato addestrato su 390 milioni di esempi immagine-testo (345M nel pre-training, 40M nel mid-training, 4M nel SFT), utilizzando dati web-scale e sintetici, senza ricorrere a tecniche di Reinforcement Learning (RL) complesse.

3. Risultati Sperimentali

I risultati sono stati valutati su una vasta gamma di benchmark (VLMEvalKit), inclusi compiti di comprensione di documenti, OCR, ragionamento visivo e allucinazioni.

Confronto con VLM Modulari: NEO (nelle varianti 2.2B e 9B) riduce drasticamente il divario di prestazioni rispetto ai migliori VLM modulari (come Qwen2-VL, InternVL2.5/3) di dimensioni simili. Ad esempio, NEO-9B raggiunge il 54.6 su MMMU e 82.1 su MMBench, competendo direttamente con modelli modulari molto più grandi o addestrati su dataset più vasti.
Confronto con VLM Nativi: NEO supera significativamente altri approcci nativi (come EVE, Mono-InternVL, Chameleon) su benchmark visivi-centrici, dimostrando che le primitive native ben progettate possono apprendere la percezione visiva da zero senza bisogno di distillazione da encoder visivi esterni.
Efficienza: Nonostante l'assenza di RL e l'uso di dati relativamente limitati rispetto ai giganti modulari, NEO dimostra un'efficace scalabilità e capacità di generalizzazione.

4. Contributi Chiave

Definizione di Primitive VLM Native: Il paper stabilisce tre principi guida per i VLM nativi: allineamento efficace pixel-parola, integrazione senza soluzione di continuità dei moduli visione/linguaggio, e incorporazione intrinseca di proprietà cross-modali.
Architettura Unificata (NEO): Introduzione di un nuovo design basato su Native-RoPE e MHNA mista che risolve i problemi di disallineamento spaziale e temporale tipici dei modelli monolitici.
Paradigma di Addestramento Pre-Buffer/Post-LLM: Una strategia innovativa che permette di "guidare" l'apprendimento visivo tramite un LLM pre-addestrato, riducendo i bias semantici e i costi di allineamento.
Ecosistema Riutilizzabile: NEO fornisce componenti riutilizzabili (come il Pre-Buffer addestrato) che abbassano la barriera all'ingresso per la ricerca sui VLM nativi, rendendo lo sviluppo più accessibile ed economico.

5. Significato e Impatto

Il lavoro di NEO segna un punto di svolta verso l'idea che i sistemi multimodali di prossima generazione non debbano necessariamente essere assemblati modularmente, ma possono nascere come sistemi unificati e intrinsecamente multimodali.

Democratizzazione: Dimostra che è possibile costruire VLM potenti partendo da zero con risorse computazionali ragionevoli, riducendo la dipendenza da encoder visivi proprietari o massicci.
Scalabilità: Fornisce una base solida per l'espansione verso modelli più grandi, video e generazione, suggerendo che l'approccio "native" è scalabile e competitivo.
Futuro della Ricerca: Sposta il focus dalla semplice integrazione di moduli alla progettazione di primitive architetturali che rispettano la natura ibrida dei dati visione-linguaggio fin dal livello più basso.

In sintesi, NEO dimostra che un'architettura nativa, ben progettata e addestrata con strategie mirate, può competere con i migliori modelli modulari, offrendo al contempo una via più efficiente e unificata per l'intelligenza visiva-linguistica.