From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Concept de Base : De l'Usine à la Maison Unique

Imaginez que vous voulez construire une intelligence artificielle capable de "voir" des images et de "parler" comme un humain.

L'ancienne méthode (Modulaire) :
C'est comme construire une maison avec deux pièces séparées par un mur épais.

Dans la pièce A, vous avez un expert en vision (un photographe très doué) qui regarde l'image.
Dans la pièce B, vous avez un expert en langage (un écrivain très doué) qui rédige des phrases.
Pour qu'ils travaillent ensemble, vous devez construire un pont complexe (un traducteur) entre les deux. Le photographe décrit l'image en langage technique, le traducteur essaie de le rendre compréhensible pour l'écrivain, qui rédige ensuite la réponse.
Le problème : Ce système est lourd, lent, et il y a souvent des malentendus entre les deux experts. De plus, si vous voulez améliorer l'un, vous devez souvent tout reconstruire.

La nouvelle méthode (NEO - Native) :
L'équipe derrière NEO a décidé de tout raser et de construire une maison unique et ouverte.

Il n'y a plus de mur, ni de traducteur. L'expert en vision et l'expert en langage sont la même personne, née avec la capacité de voir et de parler en même temps.
Dès sa naissance, cette intelligence apprend à associer directement un pixel (un point de l'image) à un mot. C'est comme si l'IA apprenait à lire une image comme on apprend à lire un livre, sans avoir besoin de décrire l'image d'abord.

🧱 Les Briques Magiques : Les "Primitives"

Pour construire cette maison unique, les chercheurs ont créé de nouvelles briques de base qu'ils appellent des "Primitives".

L'Alignement Pixel-Mot (Le Dictionnaire Intuitif) :
Imaginez que chaque mot de votre vocabulaire a une couleur et une forme précise. NEO apprend que le mot "rouge" et le pixel "rouge" sont la même chose, sans avoir besoin d'un manuel d'instructions. Il crée un espace où les images et les mots se mélangent naturellement, comme de l'eau et du lait qui ne font qu'un.
L'Attention Native (Le Regard Polyvalent) :
Les anciens modèles regardaient l'image comme un puzzle qu'il fallait assembler pièce par pièce (de gauche à droite). NEO, lui, a une vision globale. Il peut regarder l'ensemble de l'image et le texte en même temps, comprendre les relations entre un objet en haut à gauche et une phrase en bas à droite, instantanément. C'est comme passer d'un regard de microscope à un regard d'aigle.
La "Pré-Buffer" (L'Apprentissage par l'Immersion) :
C'est une astuce géniale pour l'entraînement.
- Au début, NEO utilise une partie de son cerveau (la "Pré-Buffer") pour apprendre à voir, guidé par un grand professeur (un modèle de langage existant). C'est comme un élève qui observe un maître peintre.
- Ensuite, cette partie se fond dans le reste du cerveau. L'élève devient le maître. À la fin, il n'y a plus de séparation : le modèle est un seul bloc cohérent, capable de raisonner sur une image complexe sans jamais avoir eu besoin d'un "traducteur" externe.

🚀 Les Résultats : Pourquoi c'est impressionnant ?

Les chercheurs ont entraîné NEO avec 390 millions d'exemples d'images et de textes.

La performance : Même s'il est plus simple et plus petit que les géants actuels (qui utilisent l'ancienne méthode modulaire), NEO arrive à faire aussi bien, voire mieux, sur de nombreuses tâches. Il comprend les graphiques, lit le texte dans les images (OCR), et répond à des questions complexes.
L'efficacité : Comme il n'a pas besoin de construire des ponts complexes entre ses parties, il est plus rapide et consomme moins d'énergie.
L'accessibilité : En rendant cette architecture plus simple et en fournissant les "briques" (les primitives), les chercheurs disent : "Hé, tout le monde peut maintenant construire sa propre IA native !" Cela démocratise la recherche.

🎯 En Résumé

Imaginez que les anciens modèles d'IA étaient comme un orchestre où chaque musicien jouait dans une pièce différente et devait attendre qu'un chef d'orchestre (le traducteur) leur donne le signal pour jouer ensemble.

NEO, c'est un quatuor de jazz où les musiciens s'écoutent, s'adaptent et improvisent ensemble en temps réel, sans chef, sans partition rigide, et avec une connexion naturelle parfaite entre eux.

C'est une étape majeure vers des intelligences artificielles plus humaines, plus fluides et plus capables de comprendre le monde tel que nous le voyons : un mélange indissociable de ce que nous voyons et de ce que nous disons.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles Vision-Language (VLM) actuels reposent majoritairement sur une architecture modulaire. Ils combinent un encodeur visuel pré-entraîné (comme CLIP ou ViT), un projecteur (ou adaptateur) et un grand modèle de langage (LLM). Bien que performants, ces modèles souffrent de plusieurs limitations intrinsèques :

Biais inductifs forts : L'encodeur visuel pré-entraîné impose des contraintes rigides sur la résolution, les ratios d'aspect et la flexibilité du codage visuel.
Complexité d'alignement : L'alignement entre les modalités nécessite des étapes de post-entraînement complexes et coûteuses.
Fragmentation : La séparation entre les modules visuels et linguistiques empêche une interaction profonde et native, créant des déséquilibres dans l'apprentissage des représentations.

Les tentatives de créer des VLM natifs (monolithiques) ont jusqu'ici peiné à égaler les performances des modèles modulaires, souvent en raison d'une instabilité de l'optimisation, d'une perte de connaissances linguistiques ou d'une inefficacité dans l'alignement pixel-mot.

L'objectif de ce papier est de clarifier les principes fondamentaux nécessaires pour construire des VLM natifs performants et de démontrer qu'ils peuvent rivaliser avec les architectures modulaires de pointe grâce à une conception « from scratch » (à partir de zéro).

2. Méthodologie : L'Architecture NEO

Les auteurs proposent NEO, une nouvelle famille de VLM natifs construits à partir de primitives natives unifiées. L'architecture repose sur trois piliers conceptuels et une stratégie d'entraînement en trois étapes.

A. Les Primitives VLM Natifs

Au lieu de greffer un encodeur visuel sur un LLM, NEO intègre le traitement visuel et linguistique dans un seul bloc décodeur. Chaque primitive native combine :

Encodage de position flexible (Native-RoPE) : Une extension de l'embedding de position rotatif (RoPE) qui découple les dimensions temporelles ( $T$ $T$ ), de hauteur ( $H$ $H$ ) et de largeur ( $W$ $W$ ).
- Contrairement aux méthodes 3D-RoPE existantes, NEO attribue des fréquences de base distinctes et des dimensions de tête spécifiques pour $H$ et $W$ , préservant la capacité linguistique du LLM tout en capturant les dépendances spatiales locales et globales.
- Cela permet de gérer des images de résolution arbitraire et des vidéos sans perte de précision spatiale.
Attention Multi-Têtes Natives (MHNA) : Un mécanisme d'attention qui gère nativement les interactions bidirectionnelles au sein des images (comme un encodeur visuel) et les interactions causales pour le texte (comme un LLM), le tout dans un même module.
Alignement Pixel-Mot : La conception vise à aligner les représentations de pixels et de mots dans un espace sémantique partagé dès le début de l'entraînement.

B. Stratégie d'Entraînement : Pre-Buffer et Post-LLM

Pour stabiliser l'entraînement et garantir un alignement efficace, l'architecture est divisée en deux phases logiques (qui fusionnent ensuite) :

Pre-Buffer (Couche d'entrée) : Les premières couches du modèle sont initialisées aléatoirement. Elles sont responsables de l'encodage initial des patches d'images et des tokens de texte, apprenant à projeter les pixels vers l'espace sémantique du modèle.
Post-LLM (Cœur du modèle) : Les couches suivantes héritent des poids d'un LLM pré-entraîné (Qwen3 dans ce cas). Elles conservent les capacités de raisonnement linguistique tout en apprenant à intégrer les informations visuelles via les nouvelles dimensions $H$ et $W$ .
Fusion : Après l'entraînement, ces deux parties forment un backbone monolithique unique qui alloue dynamiquement ses capacités aux tâches d'encodage, d'alignement et de raisonnement.

C. Pipeline d'Entraînement

L'entraînement se déroule en trois étapes end-to-end sur 390 millions d'exemples image-texte :

Pré-entraînement : Apprentissage des concepts visuels de base à partir de données web à grande échelle (LAION, COYO, etc.) avec des poids de LLM figés pour les couches linguistiques, mais optimisation des couches Pre-Buffer et des nouvelles têtes Q/K.
Mid-Training : Renforcement de l'alignement vision-langage et apprentissage de la haute résolution, de l'OCR et de la localisation spatiale sur des données de conversation et de détection.
Supervised Fine-Tuning (SFT) : Affinement sur des instructions de haute qualité pour le raisonnement complexe, le dialogue et la compréhension de documents.

3. Contributions Clés

Définition des Primitives Natives : Identification et formalisation des composants essentiels (Native-RoPE, MHNA) nécessaires pour un VLM natif efficace, comblant le fossé entre les encodeurs visuels et les LLMs.
Architecture Unifiée et Évolutive : NEO démontre qu'un modèle monolithique peut surpasser les approches modulaires en évitant les biais d'alignement et en permettant un apprentissage end-to-end fluide.
Efficacité des Données : Le modèle atteint des performances de pointe avec des données d'entraînement limitées par rapport aux géants modulaires, prouvant la supériorité de la conception native.
Écosystème Réutilisable : Les auteurs libèrent les composants (Pre-Buffer, primitives) pour faciliter le développement futur de VLM natifs, démocratisant la recherche dans ce domaine.

4. Résultats Expérimentaux

Les auteurs ont évalué NEO (versions 2.2B et 9B paramètres) sur une large gamme de benchmarks (VLMEvalKit) :

Comparaison avec les VLM Modulaires : NEO rivalise avec les modèles modulaires de pointe (comme Qwen2-VL, InternVL2.5/3) de taille similaire. Par exemple, NEO-9B obtient des scores comparables à Qwen2.5-VL-7B sur des tâches de raisonnement (MMMU, MMBench) et de perception visuelle, malgré l'absence de module d'encodeur visuel externe et de techniques de renforcement (RL).
Comparaison avec les VLM Natifs : NEO surpasse significativement les modèles natifs existants (Fuyu, EVE, Chameleon, Mono-InternVL) sur presque tous les benchmarks, notamment en compréhension de documents (DocVQA) et en raisonnement visuel.
Robustesse aux Résolutions : Grâce au Native-RoPE, NEO gère nativement des résolutions arbitraires et des ratios d'aspect variés sans nécessiter de découpage (tiling) agressif, contrairement à de nombreux modèles modulaires.
Limites : Le modèle montre encore un retard sur les tâches très dépendantes des connaissances générales ou de l'OCR dense (comme MMMU ou InfoVQA), suggérant un besoin de données d'entraînement plus vastes et de meilleure qualité dans ces domaines spécifiques.

5. Signification et Impact

Ce travail marque un tournant dans le domaine des modèles multimodaux :

Paradigme Unifié : Il prouve que l'avenir des VLM ne réside pas nécessairement dans l'assemblage de modules séparés, mais dans des architectures intrinsèquement multimodales.
Démocratisation : En fournissant des primitives réutilisables et un code open-source, NEO réduit la barrière à l'entrée pour la recherche sur les VLM natifs, permettant à la communauté de se concentrer sur l'innovation architecturale plutôt que sur l'ingénierie d'alignement complexe.
Évolutivité : L'approche « Pre-Buffer/Post-LLM » offre une voie prometteuse pour l'entraînement de modèles massifs (jusqu'à des centaines de milliards de paramètres) tout en maintenant une stabilité d'optimisation.

En résumé, NEO établit un nouvel état de l'art pour les VLM natifs, démontrant qu'une conception unifiée, basée sur des primitives adaptées aux spécificités spatiales et temporelles, peut égaler, voire surpasser, les architectures modulaires dominantes, ouvrant la voie à des systèmes d'intelligence visuelle plus efficaces et plus flexibles.

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

🌟 Le Concept de Base : De l'Usine à la Maison Unique

🧱 Les Briques Magiques : Les "Primitives"

🚀 Les Résultats : Pourquoi c'est impressionnant ?

🎯 En Résumé

1. Problématique et Contexte

2. Méthodologie : L'Architecture NEO

A. Les Primitives VLM Natifs

B. Stratégie d'Entraînement : Pre-Buffer et Post-LLM

C. Pipeline d'Entraînement

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems