OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre une vidéo en regardant chaque pixel de chaque image, des milliers de fois par seconde. C'est ce que font les intelligences artificielles actuelles : elles regardent tout, partout, tout le temps. Le problème ? C'est comme essayer de lire un livre en regardant chaque grain de papier, y compris les pages blanches et les espaces entre les mots. C'est un gaspillage colossal d'énergie et de temps.

Voici comment OneVision-Encoder change la donne, expliqué simplement :

1. Le Problème : Le "Gaspillage" des Pixels

Dans une vidéo, la plupart des choses ne bougent pas. Si vous regardez une vidéo d'une personne qui marche dans un parc, l'arbre en arrière-plan, le ciel et le sol restent exactement les mêmes d'une image à l'autre.

L'approche actuelle : L'IA regarde l'arbre, le ciel et le sol à chaque image, encore et encore. C'est comme si vous relisiez la même phrase du début à la fin du livre à chaque fois que vous tournez une page.
Le résultat : L'IA perd son énergie sur ce qui ne change pas, et rate souvent les détails importants (le mouvement, l'action) parce qu'elle est trop occupée à regarder le fond.

2. La Solution : Devenir un "Codec" Intelligent

Les auteurs de ce papier ont eu une idée brillante : pourquoi ne pas copier la façon dont les films sont compressés pour Netflix ou YouTube ?

Quand vous regardez un film en streaming, le fichier vidéo ne contient pas toutes les images complètes. Il contient :

Une image de référence (I-Frame) : Une photo complète et nette du début.
Des instructions de mouvement (P-Frames) : Au lieu de redessiner tout l'arbre, le fichier dit juste : "L'arbre est resté là, mais la personne a bougé de 2 centimètres vers la droite."

OneVision-Encoder imite cette logique. Au lieu de regarder toute l'image, il se concentre uniquement sur ce qui change.

L'analogie du détective : Imaginez un détective dans une pièce. Au lieu de scanner chaque centimètre carré du mur, il regarde uniquement là où il y a un mouvement ou une trace de pas. C'est là que se trouve la preuve (l'information). OneVision-Encoder fait exactement cela : il ignore le "bruit" (le fond statique) et ne garde que les "surprises" (le mouvement).

3. Comment ça marche ? (La Magie du "Patchification")

Le modèle découpe l'image en petits carrés (des "patches").

L'ancien modèle : Il prend tous les carrés, même ceux qui sont vides ou statiques.
OneVision-Encoder : Il utilise une astuce mathématique (basée sur les codes vidéo réels) pour dire : "Ah, ce carré de l'arbre ne bouge pas ? On le jette. Ce carré où la main bouge ? On le garde !"

Résultat ? Il ne traite que 3 % à 25 % des informations nécessaires pour comprendre la vidéo, mais il comprend tout aussi bien, voire mieux, que les modèles qui regardent tout.

4. L'Analogie de la Cuisine

Pensez à cuisiner un grand repas pour 100 personnes.

L'approche traditionnelle : Vous préparez 100 assiettes identiques, remplissez chacune de tout le plat, puis mangez tout. C'est lent et coûteux.
L'approche OneVision : Vous préparez une seule assiette de référence, puis vous notez uniquement ce qui change pour chaque personne (ex: "Mme. Martin a ajouté du sel, M. Dubois a enlevé l'oignon"). Vous n'avez plus besoin de recréer tout le plat, juste de gérer les petites modifications. C'est beaucoup plus rapide et efficace.

5. Pourquoi c'est révolutionnaire ?

Ce papier prouve une chose fondamentale : La précision et l'efficacité ne sont pas ennemies.
En se concentrant sur l'essentiel (le mouvement et le changement), le modèle devient :

Plus rapide : Il a moins de calculs à faire.
Plus intelligent : Il ne se perd pas dans le détail inutile et comprend mieux l'action globale.
Plus économe : Il nécessite beaucoup moins de données pour apprendre.

En résumé

OneVision-Encoder est comme un chef cuisinier qui a appris à ne cuisiner que les ingrédients qui changent le goût du plat, au lieu de tout mélanger. En imitant la façon dont la nature et les technologies de compression (comme les codecs vidéo) fonctionnent, il crée une intelligence artificielle capable de "voir" le monde non pas comme une série de photos fixes, mais comme une histoire fluide où seul le mouvement compte vraiment.

C'est un pas de géant vers une intelligence artificielle plus humaine, plus rapide et capable de comprendre le monde réel sans se noyer dans les données inutiles.

Each language version is independently generated for its own context, not a direct translation.

Titre : OneVision-Encoder : La Sparsité Alignée sur les Codecs comme Principe Fondamental pour l'Intelligence Multimodale

1. Problématique et Contexte

L'hypothèse centrale de ce travail repose sur l'idée que l'intelligence artificielle générale (AGI) est fondamentalement un problème de compression. Les signaux visuels, en particulier les vidéos, sont hautement redondants dans l'espace et le temps. La majorité du contenu visuel est prévisible à partir du contexte environnant, tandis que l'information discriminative (la "surprise" ou le mouvement) est sparse.

Cependant, les architectures de vision par ordinateur modernes (comme les Transformers vidéo standards) traitent uniformément des grilles de pixels denses. Cette approche gaspille une capacité de calcul massive sur des arrière-plans statiques et prévisibles, au lieu de se concentrer sur les résidus prédictifs qui définissent le mouvement et le sens. Les auteurs soutiennent que pour résoudre la compréhension visuelle, il faut aligner les architectures sur les principes informationnels des codecs vidéo (comme H.264/HEVC), qui séparent explicitement le contexte spatial stable des mises à jour temporelles éparses.

2. Méthodologie : OneVision-Encoder (OV-Encoder)

Le papier présente OneVision-Encoder, un transformeur de vision (ViT) conçu selon une logique inspirée des codecs HEVC. L'approche repose sur trois piliers techniques principaux :

A. Codec Patchification (Sélection de Patchs Alignée sur le Codec)
Au lieu de traiter toutes les patches d'une vidéo de manière uniforme, OV-Encoder utilise les signaux exposés par les codecs vidéo pour identifier et encoder uniquement les régions riches en entropie de signal.

Mécanisme : Pour les trames prédites (P-frames), le modèle analyse les vecteurs de mouvement et les signaux résiduels (les différences non expliquées par le mouvement).
Sélection : Seules les patches présentant une forte magnitude de mouvement ou d'énergie résiduelle sont conservées. Cela permet de réduire le nombre de tokens visuels de 3,1 % à 25 % par rapport à une grille dense, tout en conservant une couverture temporelle complète.
Trois modes d'entrée unifiés :
1. Dense Video-Codec Patchification : Utilise les signaux I/P-frames pour sélectionner dynamiquement les patches dans une vidéo dense.
2. Chunk-wise Patchification : Divise la vidéo en segments temporels pour un échantillonnage temporel non uniforme.
3. Single-Image Spatial Patchification : Adaptation pour les images statiques.

B. Encodage de Position 3D RoPE (Rotary Position Embedding)
Pour gérer des dispositions de tokens irrégulières (spatio-temporelles) résultant de la sélection de patches, le modèle utilise un RoPE 3D partagé.

Il encode les décalages relatifs en trois dimensions : Temps ( $\Delta t$ ), Hauteur ( $\Delta y$ ) et Largeur ( $\Delta x$ ).
Cela permet au mécanisme d'attention de fonctionner de manière cohérente, que l'entrée soit une image statique, une vidéo échantillonnée par tranches, ou une vidéo dense avec des patches sélectionnés par codec.

C. Objectif d'Entraînement : Discrimination de Clusters
Pour apprendre des représentations structurées sans supervision externe (comme le texte), le modèle utilise un objectif de discrimination de clusters auto-supervisé.

Un "banque de concepts" de plus d'un million de clusters est utilisé.
L'objectif force l'alignement des embeddings d'images et de vidéos vers des centres de clusters sémantiques, capturant simultanément la permanence des objets (niveau image) et la dynamique du mouvement (niveau vidéo).

3. Contributions Clés

OV-Encoder : Un transformeur de vision unifié qui aligne l'apprentissage de représentations spatio-temporelles sur la structure prédictive intrinsèque des signaux vidéo.
Codec Patchification : Une formulation d'entrée novatrice qui exploite les signaux temporels des codecs pour encoder sélectivement les patches informatifs, unifiant ainsi les entrées vidéo, échantillonnées et images statiques.
Apprentissage Structuré : L'utilisation d'un objectif de discrimination de clusters à grande échelle pour apprendre des sémantiques d'objets et de mouvement sans dépendre de paires image-texte massives pour la supervision directe.
Efficacité et Performance : Démonstration que la sparsité alignée sur les codecs n'est pas un simple compromis, mais un principe fondamental améliorant à la fois l'efficacité et la précision.

4. Résultats Expérimentaux

Les expériences montrent que OV-Encoder surpasse systématiquement les modèles de référence (backbones) forts, notamment Qwen3-ViT et SigLIP2, tout en utilisant moins de tokens visuels et moins de données de pré-entraînement.

Benchmarks Multimodaux (LMM Probing) : Intégré dans des modèles de langage multimodaux (LMM) basés sur Qwen3-4B, OV-Encoder surpasse les concurrents sur 16 benchmarks couvrant la compréhension d'images, de vidéos et de documents.
- Note : Il bat Qwen3-ViT (pré-entraîné sur 2,1T de tokens) malgré un pré-entraînement sur seulement ~100B de tokens visuels-textes.
Performance Vidéo : Sur les tâches de compréhension vidéo, OV-Encoder améliore la performance moyenne de 4,1 % par rapport à Qwen3-ViT.
Évaluation par Sonde Attentive (Attentive Probing) :
- Sur le benchmark Diving-48, OV-Encoder (Codec) améliore l'exactitude Top-1 de 17,1 % par rapport à SigLIP2 et de 8,1 % par rapport à DINOv3, avec un budget de patches identique (2048).
- Il surpasse également AIMv2 et MetaCLIP2.
Efficacité des Tokens : En utilisant une sélection de patches guidée par le codec, le modèle réduit le traitement de patches de 75 % à 96,9 % par rapport au traitement dense, tout en maintenant ou en améliorant la précision, en particulier pour les actions rapides et subtiles.

5. Signification et Impact

Ce travail remet en question le paradigme dominant du traitement uniforme des grilles de pixels dans la vision par ordinateur. Il démontre que :

L'efficacité et la précision sont corrélées positivement lorsque l'architecture respecte la structure informationnelle des données (ici, la redondance prédictive des vidéos).
Les principes des codecs vidéo traditionnels (séparation contexte/mouvement) peuvent être directement transposés pour guider l'apprentissage profond, offrant une voie évolutive vers une intelligence visuelle universelle.
OneVision-Encoder se positionne comme un moteur évolutif pour l'intelligence multimodale, capable de raisonner sur le temps et l'espace avec une efficacité computationnelle supérieure, sans sacrifier la capacité de généralisation.

En résumé, OneVision-Encoder propose un changement de paradigme : au lieu de "voir" tout, l'IA doit apprendre à "voir" ce qui change, en s'inspirant de la manière dont les systèmes de compression humains et artificiels ont toujours géré l'information visuelle.

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

1. Le Problème : Le "Gaspillage" des Pixels

2. La Solution : Devenir un "Codec" Intelligent

3. Comment ça marche ? (La Magie du "Patchification")

4. L'Analogie de la Cuisine

5. Pourquoi c'est révolutionnaire ?

En résumé

Titre : OneVision-Encoder : La Sparsité Alignée sur les Codecs comme Principe Fondamental pour l'Intelligence Multimodale

1. Problématique et Contexte

2. Méthodologie : OneVision-Encoder (OV-Encoder)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation