OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

O OneVision-Encoder propõe um novo paradigma para a inteligência multimodal alinhado aos princípios de compressão de codecs, utilizando esparsidade baseada em "patch" para focar apenas nas regiões de alta entropia e demonstrar que eficiência e precisão são positivamente correlacionadas, superando modelos de visão estabelecidos em diversos benchmarks com menos recursos computacionais.

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando aprender a dirigir um carro olhando apenas para fotos tiradas a cada 10 minutos. Você veria o carro na estrada, depois em um cruzamento, depois estacionado, mas perderia tudo o que aconteceu no meio: o sinal vermelho, o pedestre atravessando, a curva perigosa. É assim que a maioria dos computadores "vê" vídeos hoje em dia: eles olham para quadros inteiros de forma uniforme, gastando muita energia e memória para processar coisas que não mudam, como o céu azul ou uma parede de fundo.

O OneVision-Encoder é uma nova inteligência artificial que muda essa lógica. Os pesquisadores do Glint Lab e outros laboratórios propuseram uma ideia brilhante: a inteligência visual deve funcionar como um "codificador de vídeo" (como o usado no YouTube ou Netflix), e não como uma câmera que tira fotos aleatórias.

Aqui está a explicação simplificada usando analogias do dia a dia:

1. O Problema: O "Excesso de Bagagem"

Imagine que você precisa enviar uma carta para um amigo descrevendo um filme que você acabou de ver.

  • O jeito antigo (Modelos Atuais): Você descreve cada segundo do filme, palavra por palavra, incluindo quando o personagem apenas respira ou quando a câmera fica parada em uma parede. Isso gera uma carta gigante, cara e lenta de enviar, mas que não ajuda muito a entender a história.
  • O jeito novo (OneVision): Você foca apenas no que importa: "O herói pulou do prédio", "O vilão sorriu", "O carro bateu". Você ignora o que é previsível e repetitivo.

2. A Solução: A "Mágica do Codec"

Os vídeos digitais (como MP4) usam uma técnica chamada Codec (como H.264 ou HEVC) para comprimir arquivos. Eles funcionam assim:

  • Quadro I (I-Frame): É uma foto completa e nítida de uma cena.
  • Quadro P (P-Frame): Em vez de salvar a foto inteira de novo, o computador apenas salva o que mudou em relação à foto anterior. Se o fundo é estático, ele não é salvo novamente. Ele só salva o movimento do personagem.

O OneVision-Encoder aprendeu a fazer o mesmo, mas para "entender" o vídeo:

  • Ele não olha para todos os pixels da tela.
  • Ele identifica onde está a ação (o movimento, a mudança de cor, o "surpresa").
  • Ele ignora o que é estático (o fundo, o céu).
  • Resultado: Em vez de processar 100% da imagem, ele foca apenas em 3% a 25% da imagem onde a ação real acontece. É como se ele tivesse um "super-foco" que ignora o tédio e só presta atenção no interessante.

3. A Analogia do "Detetive de Movimento"

Pense em um detetive em um museu cheio de quadros.

  • O modelo antigo caminha devagar, olhando para cada centímetro de cada quadro, gastando horas para notar que a parede está pintada de branco.
  • O OneVision é um detetive experiente. Ele sabe que a parede é branca e não muda. Ele corre direto para onde alguém está mexendo um quadro, ou onde uma sombra se moveu. Ele usa a mesma energia para investigar 100 vezes mais crimes porque não perde tempo com o que é óbvio.

4. Por que isso é revolucionário?

O papel mostra que, ao fazer isso, o modelo se torna mais inteligente e mais rápido ao mesmo tempo.

  • Economia de Energia: Como ele processa menos "lixo" (imagens estáticas), ele usa menos energia de computador.
  • Melhor Memória: Como ele não gasta memória tentando lembrar de paredes brancas, ele consegue lembrar de mais detalhes importantes da história do vídeo.
  • Entendimento Profundo: Ele consegue entender vídeos longos e complexos (como um filme de 130 segundos ou um mergulho de 15 segundos) sem perder os momentos rápidos e cruciais que os outros modelos ignoram.

5. O Resultado Final

O OneVision-Encoder foi testado em várias tarefas (entender vídeos, ler documentos, analisar gráficos) e venceu os modelos mais famosos do mundo (como o Qwen3-ViT e o SigLIP2), mesmo tendo sido treinado com menos dados.

Resumo em uma frase:
O OneVision-Encoder é como um "filtro de atenção" inteligente que ensina a IA a ignorar o tédio e focar apenas no que realmente acontece no vídeo, tornando-a mais rápida, barata e inteligente, exatamente como o nosso cérebro humano faz quando assistimos a algo.

Em vez de tentar "ver tudo", ele aprendeu a ver o que importa.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →