Beyond Language Modeling: An Exploration of Multimodal Pretraining

Este artigo investiga o pré-treinamento multimodal nativo utilizando o framework Transfusion, revelando que a combinação de representações visuais unificadas (RAE) com uma arquitetura Mixture-of-Experts (MoE) resolve a assimetria de escalabilidade entre visão e linguagem, permitindo a emergência de capacidades de modelagem de mundo e sinergia entre modalidades.

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um supercomputador a entender o mundo. Até hoje, a melhor maneira de fazer isso era apenas lendo livros e textos. É como tentar ensinar alguém a andar de bicicleta apenas lendo um manual de instruções: a pessoa pode saber a teoria, mas nunca sentirá o vento no rosto ou a física da queda.

Este novo trabalho, feito por pesquisadores do Meta (FAIR) e da NYU, propõe uma mudança radical: ensinar a máquina a "ver" e a "ler" ao mesmo tempo, desde o zero.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Problema: A Caverna de Platão

Os autores começam com uma metáfora antiga. Imagine que os modelos de linguagem atuais (como o ChatGPT) são prisioneiros na Caverna de Platão. Eles só veem sombras na parede (o texto) e acham que aquilo é a realidade. Eles sabem descrever uma maçã perfeitamente, mas nunca viram uma maçã real, não sabem como ela cai, como brilha ou como se sente ao tocá-la.

Para sair da caverna, precisamos dar aos modelos "olhos" e "mãos" digitais, não apenas "boca" (texto).

2. A Solução: Um Único Cérebro Multitarefa

Antes, os cientistas tentavam juntar duas mentes diferentes: uma para ler e outra para ver. Era como ter um funcionário que só sabe falar e outro que só sabe desenhar, e tentar fazê-los trabalhar juntos. Dava errado ou era muito complicado.

Neste trabalho, eles criaram um único cérebro que aprende tudo junto. Eles usaram uma técnica chamada Transfusion, onde o modelo:

  • Prevê a próxima palavra (como um escritor).
  • Prevê a próxima imagem (como um cineasta imaginando o próximo quadro de um filme).

3. As 4 Grandes Descobertas (Os Segredos do Sucesso)

O papel revela quatro "pílulas mágicas" que fizeram esse sistema funcionar:

A. A Lente Mágica (RAE)

Antes, pensava-se que precisávamos de duas lentes diferentes: uma para entender o que está na foto (como um detetive) e outra para criar fotos novas (como um pintor).

  • A descoberta: Eles descobriram uma lente única chamada RAE (Autoencoder de Representação) que funciona perfeitamente para os dois lados. É como se o modelo tivesse uma "visão de raio-X" que entende a estrutura da coisa e, ao mesmo tempo, sabe como reconstruí-la. Isso simplifica tudo: um cérebro, uma lente, dois trabalhos.

B. A Dieta Balanceada (Dados)

Muitos achavam que misturar vídeos e textos iria "confundir" o cérebro do modelo, como tentar estudar matemática enquanto ouve música barulhenta.

  • A descoberta: Não é confusão, é sinergia. O texto ajuda o modelo a entender o vídeo (dando contexto), e o vídeo ajuda o modelo a entender o texto (dando realidade). Eles se ajudam mutuamente. Além disso, o modelo não precisa de milhões de exemplos específicos de "como andar"; ele aprende isso assistindo a vídeos gerais, como se fosse uma criança que aprende a física do mundo apenas observando.

C. O Mundo Real (Modelagem de Mundo)

O modelo não só vê e fala; ele começa a prever o futuro.

  • A analogia: Se você mostra ao modelo 4 quadros de alguém correndo e diz "pule", ele consegue imaginar os próximos quadros onde a pessoa está no ar.
  • O milagre: O modelo aprendeu isso quase sem treino específico! Ele apenas assistiu a muitos vídeos e leu muitos textos, e de repente, "entendeu" que o mundo tem regras físicas (gravidade, movimento). Ele pode até receber ordens em linguagem natural, como "vá para a sombra", e simular o movimento, mesmo que nunca tenha visto essa ordem antes.

D. O Time de Especialistas (MoE)

Aqui está a parte mais inteligente da arquitetura. Imagine uma grande empresa.

  • O problema: O texto é fácil de aprender, mas exige muita "memória" (parâmetros). O vídeo é difícil de aprender e exige muitos "dados" (exemplos). Se você usa o mesmo time para os dois, o time fica sobrecarregado ou ineficiente.
  • A solução: Eles usaram uma arquitetura chamada MoE (Mistura de Especialistas). Pense nisso como um hospital com muitos médicos.
    • Quando o modelo vê uma palavra, ele chama os "especialistas em texto".
    • Quando vê uma imagem, ele chama os "especialistas em visão".
    • O sistema aprende sozinho quem deve atender cada caso. Isso permite que o modelo seja enorme e poderoso, mas só use a energia necessária para cada tarefa. É como ter um carro que muda de motor dependendo se você está na cidade ou na estrada.

4. O Resultado Final

O que eles construíram é um modelo que não apenas "sabe" coisas, mas sente como o mundo funciona.

  • Ele não precisa ser reprogramado para cada nova tarefa.
  • Ele aprende com vídeos brutos da internet (como o YouTube) e textos.
  • Ele consegue planejar ações (como um robô navegando em um quarto) apenas "imaginando" o que aconteceria se ele fizesse tal movimento.

Resumo em uma frase

Este trabalho mostra que, se pararmos de tratar a visão como um acessório e a tratarmos como uma parte fundamental do aprendizado, junto com o texto, e usarmos uma arquitetura inteligente que divide o trabalho entre especialistas, podemos criar máquinas que realmente entendem a realidade física, e não apenas as palavras sobre ela.

É o primeiro passo para sair da "Caverna" e ver o mundo real.