From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um computador a "ver" e a "falar" ao mesmo tempo, como um humano. Até agora, a maneira mais comum de fazer isso era como montar um quebra-cabeça com peças de dois fabricantes diferentes: você pegava um "olho" (um modelo de visão) pronto, um "cérebro" (um modelo de linguagem) pronto, e tentava costurá-los juntos com uma "ponte" (um projetor) para que eles conversassem.

O problema? Às vezes, a ponte é fraca, as peças não encaixam perfeitamente, e o computador precisa de muito treinamento para aprender a usar os dois juntos. É como tentar fazer um pianista e um violinista tocarem juntos sem nunca terem ensaiado juntos antes; eles precisam de um maestro (o projetor) para tentar sincronizá-los.

A proposta do NEO: Um "Super-Organismo" Nativo

Os autores deste paper, o NEO, decidiram fazer algo diferente. Em vez de costurar peças separadas, eles construíram um único organismo do zero, onde a visão e a linguagem nascem juntos, integrados na mesma estrutura.

Aqui está a analogia principal:

Modelos Modulares (Antigos): São como um time de futebol onde o goleiro, os defensores e os atacantes são treinados em academias separadas e só se juntam no dia do jogo. Eles precisam de um técnico (o projetor) para tentar coordená-los.
NEO (Novo Modelo): É como um time que treinou juntos desde a infância. Eles "sentem" o jogo de forma natural. A visão (ver a bola) e a linguagem (gritar "passe!") são a mesma coisa para eles.

Os 3 Pilares do NEO (Simplificados)

O paper explica que, para esse "super-organismo" funcionar, eles criaram três regras de ouro (chamadas de "primitivas"):

O "Tradutor" Nativo (Alinhamento Pixel-Palavra):
Imagine que o computador vê uma foto de uma "maçã vermelha". Em vez de transformar a foto em números e depois tentar traduzir esses números para a palavra "maçã", o NEO aprende que o padrão visual da maçã e a palavra "maçã" são a mesma coisa desde o primeiro segundo. Eles vivem no mesmo "bairro" mental.
A "Mente Única" (Integração Total):
Em vez de ter um cérebro para ver e outro para falar, o NEO tem uma única rede neural densa. É como se você tivesse um cérebro que processa imagens e textos ao mesmo tempo, sem precisar de um "tradutor" no meio. Isso torna o processo mais rápido e eficiente.
O "Mapa Inteligente" (Posição Nativa):
Como o computador sabe onde está cada coisa na imagem? O NEO usa um sistema de coordenadas especial (chamado Native-RoPE).
- Analogia: Imagine que em um livro, as palavras têm uma ordem (1ª palavra, 2ª palavra). Em uma foto, você tem altura, largura e profundidade. O NEO criou um "GPS" interno que entende que a parte de cima da foto é diferente da parte de baixo, e que isso é diferente da ordem das palavras no texto. Ele não mistura tudo bagunçado; ele sabe exatamente onde cada "pedaço" da imagem e do texto está no espaço.

Como eles ensinaram o NEO? (O Processo de Treinamento)

Eles não jogaram o computador na piscina sem bóia. Usaram uma estratégia de dois passos, como aprender a andar de bicicleta:

Passo 1: O "Pré-Treino" (Pre-Buffer):
Eles ensinaram o computador a olhar para milhões de fotos e legendas, mas mantiveram o "cérebro de linguagem" (que já sabia falar) congelado. O computador aprendeu apenas a "ver" e conectar a imagem ao texto, sem esquecer como falar. É como se o aluno aprendesse a observar o mundo antes de tentar escrever um romance.
Passo 2: O "Refinamento" (Post-LLM):
Depois, eles "descongelaram" tudo e deixaram o computador praticar em conversas, perguntas difíceis e tarefas complexas. Agora, a visão e a linguagem trabalham juntas em harmonia total.

Os Resultados: O que isso significa para nós?

O NEO foi testado em várias tarefas difíceis (entender gráficos, ler textos em fotos, responder perguntas complexas sobre imagens) e mostrou que:

É mais eficiente: Consegue resultados muito bons com menos dados e menos complexidade do que os modelos antigos que usam "peças separadas".
É mais flexível: Entende imagens de qualquer tamanho ou formato sem precisar de ajustes estranhos.
É o futuro: Mostra que não precisamos mais de "pontes" frágeis entre visão e linguagem. Podemos construir máquinas que pensam de forma multimodal (visual + texto) de forma natural, desde o nascimento.

Resumo Final:
O NEO é como um bebê que nasceu sabendo que "ver" e "dizer" são a mesma habilidade. Enquanto os modelos antigos são como dois adultos aprendendo a se entender, o NEO já nasceu com essa conexão, prometendo ser mais inteligente, mais rápido e mais fácil de usar no futuro.

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Os 3 Pilares do NEO (Simplificados)

Como eles ensinaram o NEO? (O Processo de Treinamento)

Os Resultados: O que isso significa para nós?

1. O Problema e o Contexto

2. Metodologia: A Arquitetura NEO

A. Primitivas VLM Nativas (Native VLM Primitives)

B. Paradigma de Treinamento: Pre-Buffer e Post-LLM

C. Dados e Escala

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Os 3 Pilares do NEO (Simplificados)

Como eles ensinaram o NEO? (O Processo de Treinamento)

Os Resultados: O que isso significa para nós?

1. O Problema e o Contexto

2. Metodologia: A Arquitetura NEO

A. Primitivas VLM Nativas (Native VLM Primitives)

B. Paradigma de Treinamento: Pre-Buffer e Post-LLM

C. Dados e Escala

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems