Each language version is independently generated for its own context, not a direct translation.

Imagina que tu cerebro es un chef experto y los videos que ves son como montañas de ingredientes que te llegan cada segundo.

La mayoría de los modelos de inteligencia artificial actuales (como los que usan los robots o las apps de hoy) son como chefs novatos: cuando reciben una montaña de ingredientes, intentan cortar y procesar cada hoja de lechuga, cada grano de arroz y cada gota de agua por igual, sin importar si son importantes o no. Esto hace que se cansen mucho, gasten toda su energía en cosas aburridas (como un fondo estático) y se les olvide lo importante (el movimiento de un gato saltando).

OneVision-Encoder es un nuevo "chef" que ha aprendido una lección vital: la inteligencia es, en el fondo, un problema de compresión.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: La "Tormenta de Nieve" vs. El "Destello"

Imagina que estás viendo un video de un partido de fútbol.

El fondo (el césped, las gradas, el cielo) cambia muy poco. Es ruido, es repetitivo.
La acción (el jugador corriendo, el balón chutando) es donde está la información real. Es el "destello" o la sorpresa.

Los modelos antiguos miran todo el campo de juego con la misma intensidad, gastando energía en el césped que no se mueve. OneVision-Encoder sabe que el césped no necesita ser analizado en cada fotograma. Solo necesita mirar dónde ocurre la acción.

2. La Solución: El "Guion de Cine" (Codecs)

Los creadores de este modelo miraron cómo funcionan los codecs de video (como los que usa YouTube o Netflix para que los videos carguen rápido). Esos sistemas ya saben que no necesitan guardar cada píxel de cada segundo.

Guardan una foto completa (I-frame) de la escena.
Luego, solo guardan pequeños cambios (P-frames) cuando algo se mueve.

OneVision-Encoder hace lo mismo, pero de forma inteligente:

En lugar de procesar 100% de la imagen, solo procesa entre el 3% y el 25% de las partes que se mueven o cambian.
Imagina que en lugar de leer un libro entero palabra por palabra, solo lees las frases donde alguien grita o llora. ¡Aprendes la historia mucho más rápido y con menos esfuerzo!

3. La Magia: "Cortar y Pegar" Inteligente

El modelo usa una técnica llamada "Codec Patchification" (Cortado de Codecs).

Imagina que el video es un mosaico de 10,000 piezas.
El modelo ignora las 9,000 piezas que son el fondo estático.
Selecciona solo las 1,000 piezas donde hay movimiento (un coche pasando, una persona hablando).
Resultado: El cerebro de la IA se enfoca solo en lo importante, ahorrando una energía enorme (computación) y aprendiendo mejor.

4. ¿Por qué es mejor que los demás?

El paper demuestra que este modelo es más rápido y más inteligente que los gigantes actuales (como Qwen o SigLIP), incluso aunque haya visto menos videos durante su entrenamiento.

La analogía del estudiante:
- Modelo antiguo: Un estudiante que lee todo el libro de texto 10 veces, subrayando todo, pero no entiende el examen porque se abrumó con el ruido.
- OneVision-Encoder: Un estudiante brillante que sabe exactamente qué capítulos son importantes, salta los resúmenes aburridos y se enfoca en los ejemplos clave. Aprende más rápido y saca mejores notas.

5. Los Resultados en la Vida Real

Cuando pusieron a prueba a este "chef" en tareas difíciles:

Entendiendo videos: Fue un 4% mejor que los mejores modelos actuales.
Reconociendo acciones: Si le mostraban un video de alguien buceando, podía ver el movimiento exacto del cuerpo sin necesidad de ver cada fotograma.
Eficiencia: Logró estos resultados usando muchas menos "piezas" (tokens) de información. Es como decir que un coche de Fórmula 1 va más rápido porque es más ligero, no porque tenga un motor más grande.

En Resumen

OneVision-Encoder nos enseña que para ser verdaderamente inteligente, no necesitas ver todo. Necesitas saber qué mirar.

Al igual que un video comprimido (como un MP4) contiene toda la película pero ocupa muy poco espacio porque elimina lo repetitivo, este modelo de IA aprende a ignorar el aburrimiento y a enfocarse en la sorpresa. Es el primer paso hacia una inteligencia artificial que no solo "ve" píxeles, sino que entiende el movimiento y el significado de la vida real, de forma eficiente y elegante.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: OneVision-Encoder

1. El Problema: Ineficiencia en la Compresión Visual

La hipótesis central del trabajo es que la Inteligencia Artificial General (AGI) es, en esencia, un problema de compresión. Sin embargo, las arquitecturas de visión actuales (basadas en Transformers) han desviado de los principios fundamentales de la compresión eficiente:

Redundancia vs. Información: Las señales visuales (especialmente en video) son altamente redundantes. La mayor parte del contenido es predecible a partir del contexto (fondo estático, movimiento suave), mientras que la información discriminativa (el "sorpresa" o cambio significativo) es escasa y localizada.
Enfoque Actual Ineficiente: Los modelos actuales procesan uniformemente grillas densas de píxeles, desperdiciando una enorme capacidad computacional en regiones estáticas o predecibles en lugar de centrarse en los residuos predictivos que definen el movimiento y el significado.
La Brecha: Existe una dicotomía no resuelta entre la densidad de los tokens visuales y la semántica real. Los modelos actuales no alinean su arquitectura con la estructura de información inherente de los datos de video.

2. Metodología: OneVision-Encoder

El equipo propone OneVision-Encoder (OV-Encoder), un transformador de visión inspirado en los códecs de video (como HEVC/H.265) que alinea el aprendizaje de representaciones espaciotemporales con la estructura predictiva intrínseca de las señales de video.

A. Principio Fundamental: Compresión Predictiva Alineada con Códecs

En lugar de tratar cada frame por igual, el modelo adopta la lógica de los códecs de video:

I-Frames (Intra): Capturan el contexto espacial completo.
P-Frames (Predictivas): Capturan solo las variaciones inter-frame (movimiento y residuos).
Estrategia: El modelo identifica y codifica selectivamente solo las regiones ricas en entropía de señal (movimiento y cambios de apariencia), ignorando el fondo estático.

B. Componentes Clave de la Arquitectura

Codec Patchification (Fragmentación basada en Códecs):
Es una formulación de entrada inspirada en códecs que utiliza señales temporales expuestas por los códecs (vectores de movimiento y residuos) para organizar los tokens visuales. Se implementa en tres variantes:
- Dense Video-Codec Patchification: Para videos densos. Utiliza vectores de movimiento y energía de residuos de los P-frames para seleccionar dinámicamente solo el 3.1% - 25% de los parches más informativos, manteniendo una cobertura temporal densa.
- Chunk-wise Patchification: Divide el video en fragmentos temporales y realiza una selección de parches a nivel de fragmento, unificando el muestreo temporal disperso.
- Single-Image Spatial Patchification: Una instancia espacial para imágenes estáticas, permitiendo un modelado estructurado de contenido estático.
Posicionamiento 3D-RoPE (Rotary Position Embedding):
Para manejar la disposición irregular de los tokens (debido a la selección esparsa de parches en el tiempo y espacio), se utiliza un RoPE 3D unificado que codifica las posiciones relativas $(\Delta t, \Delta x, \Delta y)$ . Esto permite un razonamiento coherente sobre layouts espaciotemporales irregulares, preservando la estructura de movimiento.
Objetivo de Entrenamiento: Discriminación de Clusters:
Se utiliza un objetivo auto-supervisado de discriminación de clusters a gran escala (más de 1 millón de conceptos).
- Agrupa embeddings visuales en centroides semánticos.
- Modela simultáneamente la permanencia de objetos (nivel imagen) y la dinámica de movimiento (nivel video).
- Esto fuerza al modelo a aprender una estructura semántica coherente sin depender de etiquetas externas exhaustivas.
Arquitectura Base:
Utiliza un backbone de Vision Transformer (ViT) con atención bidireccional y un cabezal de attentive pooling para generar representaciones globales compactas.

3. Contribuciones Clave

OV-Encoder: Un transformador de visión estilo HEVC que alinea el aprendizaje de representaciones con la estructura predictiva de los videos.
Codec Patchification: Un método de entrada que selecciona selectivamente parches informativos basándose en señales de códec, unificando entradas de video, imágenes y muestreo temporal en un solo encoder.
Objetivo de Discriminación de Clusters: Un enfoque auto-supervisado que modela conjuntamente semántica de objetos y movimiento, eliminando la necesidad de alineación con lenguaje externo durante la pre-entrenamiento base.
Principio de Escasez Alineada: Demuestra que la escasez de parches a nivel de códec no es un truco de optimización, sino un principio fundamental para la inteligencia visual general.

4. Resultados Experimentales

El modelo ha sido evaluado en múltiples protocolos, superando a los baselines más fuertes (como Qwen3-ViT, SigLIP2, DINOv3) con menos datos y tokens.

Evaluación en Modelos Multimodales (LMM Probing):
- Integrado en LMMs (basados en Qwen3-4B), OV-Encoder supera consistentemente a Qwen3-ViT y SigLIP2 en 16 benchmarks de comprensión de imágenes, video y documentos.
- Eficiencia de Datos: Logra estos resultados siendo pre-entrenado con ~100B tokens de texto-imagen, mientras que Qwen3-ViT utiliza más de 2.1T tokens.
- Mejora en Video: Logra un promedio de mejora del 4.1% sobre Qwen3-ViT en tareas de comprensión de video.
Evaluación por Sonda Atenta (Attentive Probing):
- Evalúa la calidad de la representación visual sin adaptación específica de tarea.
- En el dataset Diving-48, bajo un presupuesto idéntico de parches (2048), OV-Encoder supera a SigLIP2 en un 17.1% y a DINOv3 en un 8.1% en precisión Top-1.
- Supera a DINOv3, SigLIP2 y MetaCLIP2 en benchmarks de video bajo evaluación de parches densos.
Eficiencia Computacional:
- Reduce la cantidad de parches procesados en un 75% - 96.9% (manteniendo solo el 3.1% - 25% de los tokens) sin sacrificar el rendimiento, e incluso mejorándolo en tareas de movimiento.
- Mantiene una cobertura temporal completa (64 frames) distribuyendo los tokens limitados solo en las regiones de movimiento crítico.

5. Significado e Impacto

El trabajo redefine el paradigma de la visión por computadora para la inteligencia multimodal:

Cambio de Paradigma: Pasa de procesar "grillas densas uniformes" a "compresión predictiva alineada con códecs".
Correlación Positiva: Demuestra que la eficiencia y la precisión no son un compromiso (trade-off), sino que están positivamente correlacionadas cuando la arquitectura se alinea con la estructura de los datos.
Escalabilidad: Proporciona un motor escalable para la inteligencia multimodal universal, capaz de entender imágenes y video de manera unificada, eficiente y robusta, reduciendo drásticamente los costos computacionales y de datos necesarios para alcanzar el estado del arte.

En conclusión, OneVision-Encoder establece que la verdadera inteligencia visual no reside en ver todo, sino en saber qué ver y cuándo actualizar la información, imitando la eficiencia de los códecs de video modernos.

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence