Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que só consegue ver o mundo através de fotos estáticas. Ele é ótimo em descrever uma foto de um gato, mas se você mostrar um vídeo de um gato correndo, pulando e derrubando um vaso, ele fica confuso. Ele não sabe quando o vaso caiu, nem consegue apontar exatamente onde o gato estava no meio da ação.

Agora, imagine que esse amigo ganhou novos óculos mágicos e um novo cérebro. Ele não só vê o vídeo, mas consegue apontar para o momento exato em que o vaso quebrou, contar quantos gatos havia na cena e seguir o gato enquanto ele corre pela sala.

Esse é o Molmo2, o novo "super-herói" de inteligência artificial apresentado neste artigo.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: Os "Robôs de Vidro"

Atualmente, os melhores robôs que entendem vídeos (como os da Google ou OpenAI) são "robôs de vidro". Eles são incríveis, mas são fechados. Ninguém sabe como eles foram feitos, ninguém pode ver o que eles aprenderam e ninguém pode melhorar o sistema. É como se você tivesse um carro de corrida, mas o motor fosse feito de vidro: você vê que ele funciona, mas não pode consertá-lo ou melhorar o motor porque não tem acesso às peças.

Além disso, esses robôs fechados muitas vezes são "cegos" para detalhes finos. Eles sabem que "algo caiu", mas não conseguem apontar onde e quando isso aconteceu no vídeo.

2. A Solução: O Molmo2 (O "Cozinheiro Aberto")

A equipe do Allen Institute for AI criou o Molmo2. Pense nele como um cozinheiro de cozinha aberta.

Aberto: Eles liberaram a receita completa, os ingredientes e o próprio cozinheiro. Qualquer pessoa pode usar, estudar e melhorar.
Sem "Gorila" (Distilação): Muitos robôs abertos hoje são feitos copiando respostas de robôs fechados (como se o cozinheiro aberto apenas copiasse o prato pronto do vizinho). O Molmo2 foi treinado do zero, com dados humanos, sem copiar ninguém. É uma receita original.

3. Os Ingredientes: A "Fazenda de Dados"

Para treinar esse robô, eles não usaram apenas vídeos aleatórios da internet. Eles construíram uma fazenda de dados gigantesca e muito específica. Imagine que eles contrataram milhares de pessoas para fazer tarefas muito específicas:

O Cronista Detalhista: Em vez de apenas dizer "um carro passa", as pessoas descreveram os vídeos com detalhes de romances: "O carro preto, com a placa X, passou rápido, o motorista bateu na janela e sorriu". Isso ensinou o robô a ser um narrador minucioso.
O Caçador de Pontos: Eles pediram para as pessoas apontarem no vídeo: "Aponte onde o cachorro pulou", "Conte quantos balões existem", "Siga o jogador de futebol enquanto ele corre". Isso ensinou o robô a ter precisão cirúrgica (o que chamam de grounding).
O Detetive de Vídeos Longos: Eles treinaram o robô com vídeos longos e perguntas difíceis, como "Qual foi a cor da camisa do jogador que marcou o gol no minuto 12?".

4. A Técnica: O "Mapa do Tesouro"

O Molmo2 usa uma técnica especial chamada atendimento bidirecional e pesagem de tokens.

Analogia: Imagine que você está lendo um livro. Normalmente, você lê uma palavra de cada vez. O Molmo2, ao contrário, consegue olhar para a palavra que você acabou de ler e também para a próxima, entendendo o contexto todo de uma vez.
Além disso, ele sabe dar mais importância às partes difíceis. Se o vídeo tem 1000 palavras de descrição, mas apenas 5 pontos para apontar, o robô não ignora os 5 pontos. Ele dá um "peso extra" para garantir que ele acerte o apontamento, mesmo que seja uma parte pequena do texto.

5. O Resultado: O Que Ele Consegue Fazer?

O Molmo2 é o melhor modelo aberto do mundo hoje em várias tarefas:

Contagem: Se você perguntar "quantos patos estão no lago?", ele conta certo, mesmo que sejam 50 patos.
Pontuação: Se você perguntar "onde está o pato que está comendo?", ele coloca um ponto vermelho exatamente no pato, no frame certo.
Rastreamento: Se você pedir "siga o pato que caiu na água", ele consegue seguir o pato através do vídeo, mesmo que ele saia da tela e volte.
Vídeos Longos: Ele consegue assistir a um vídeo de 30 minutos e responder perguntas sobre o que aconteceu no meio dele.

6. Por que isso importa?

Antes, se você quisesse construir um robô que ajudasse em uma fábrica a vigiar máquinas, ou um robô que ajudasse médicos a analisar cirurgias em vídeo, você tinha que pagar milhões para usar os robôs fechados das grandes empresas.

Com o Molmo2, qualquer universidade, startup ou pesquisador pode baixar esse modelo, colocá-lo em seu servidor e criar soluções incríveis para o mundo real, sem depender de empresas fechadas. É como se eles tivessem dado a chave da oficina para todo o mundo, permitindo que a comunidade científica construa o futuro juntos.

Resumo em uma frase:
O Molmo2 é o primeiro robô de visão e linguagem de elite que é totalmente aberto, treinado com dados humanos (sem copiar outros robôs) e capaz de apontar e rastrear objetos em vídeos com uma precisão que antes só os robôs secretos das grandes empresas conseguiam.

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

1. O Problema: Os "Robôs de Vidro"

2. A Solução: O Molmo2 (O "Cozinheiro Aberto")

3. Os Ingredientes: A "Fazenda de Dados"

4. A Técnica: O "Mapa do Tesouro"

5. O Resultado: O Que Ele Consegue Fazer?

6. Por que isso importa?

Resumo Técnico: Molmo2

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

1. O Problema: Os "Robôs de Vidro"

2. A Solução: O Molmo2 (O "Cozinheiro Aberto")

3. Os Ingredientes: A "Fazenda de Dados"

4. A Técnica: O "Mapa do Tesouro"

5. O Resultado: O Que Ele Consegue Fazer?

6. Por que isso importa?

Resumo Técnico: Molmo2

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems