Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

O artigo propõe o CoMa, um novo paradigma de pré-treinamento que desacopla a compressão de dados da aprendizagem por contraste, permitindo transformar modelos de linguagem multimodal (MLLMs) em modelos de incorporação competitivos e eficientes com poucos dados e alcançando resultados de última geração.

Da Li, Yuxiao Luo, Keping Bi, Jiafeng Guo, Wei Yuan, Biao Yang, Yan Wang, Fan Yang, Tingting Gao, Guorui Zhou

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cérebro superinteligente (um Modelo de Linguagem Multimodal, ou MLLM) que é ótimo em conversar, escrever histórias e responder perguntas complexas sobre imagens. Ele vê uma foto de um hamster e pode descrever tudo: a cor, a textura, o que ele está comendo, o fundo, etc.

O problema é que, para tarefas de busca (como encontrar "hamster amarelo" em um banco de dados com milhões de fotos), esse cérebro é muito grande e "falador". Ele guarda toda a informação, inclusive detalhes que não importam para a busca, o que o torna lento e pesado.

Os pesquisadores deste paper (CoMa) criaram uma solução inteligente para transformar esse "cérebro falador" em um "arquivista eficiente". Eles chamam isso de Compressão e Correspondência.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O "Mochilão" vs. O "Carteiro"

  • O Modelo Original (MLLM): É como um mochilão que viaja com uma mala gigante cheia de tudo: roupas, livros, fotos, souvenirs. Quando você pede para ele encontrar algo rápido, ele demora porque precisa vasculhar a mala inteira.
  • O Objetivo (Embedding): Você quer um carteiro que só leve o endereço exato do hamster amarelo. Algo pequeno, rápido e direto ao ponto.

2. A Solução: O Treinamento "CoMa"

Os autores dividiram o treinamento em duas fases, como se fosse uma escola de formação de agentes secretos:

Fase 1: Compressão (O Treino de "Resumo")

Antes de ensinar o modelo a buscar, eles ensinaram ele a resumir.

  • A Analogia: Imagine que você tem uma foto de um hamster. Em vez de deixar o modelo descrever a foto inteira, você coloca um "filtro mágico" (chamado tokens de compressão) entre a foto e a resposta.
  • O Desafio: O modelo é obrigado a olhar para a foto, espremer toda a informação importante para dentro desses poucos "filtros" e, depois, usar apenas esses filtros para responder a perguntas como: "Qual a cor do hamster?" ou "O que ele está comendo?".
  • O Truque: Eles não usaram apenas uma pergunta. Eles geraram automaticamente muitas perguntas diferentes sobre a mesma imagem (diálogos longos). Isso força o modelo a guardar tudo o que é relevante na memória comprimida, porque ele não sabe qual pergunta virá a seguir.
  • Economia de Dados: A genialidade aqui é que eles usaram um robô para criar essas perguntas e respostas automaticamente a partir das imagens. Eles não precisaram de milhões de anotações humanas caríssimas.

Fase 2: Correspondência (O Treino de "Busca")

Agora que o modelo aprendeu a guardar a informação de forma eficiente nos "filtros", vem a segunda fase.

  • A Analogia: É como ensinar o carteiro a comparar o "endereço" (o resumo do hamster) que ele guardou com o endereço que você pediu na busca.
  • O Treino: Eles mostram pares de imagens e textos que combinam e dizem: "Ei, esses dois são amigos!". E mostram pares que não combinam e dizem: "Ei, esses são inimigos, afaste-os!".
  • Resultado: O modelo aprende a organizar esses "endereços" (embeddings) de forma que coisas parecidas fiquem juntas e coisas diferentes fiquem longe.

3. Por que isso é incrível? (Os Resultados)

  • Menos Comida, Mais Força: Outros métodos precisavam de uma quantidade gigantesca de dados (como 30 bilhões de "pedaços" de texto) para treinar. O CoMa conseguiu resultados de elite usando apenas 300 milhões (10% do esforço).
  • Velocidade e Precisão: O modelo final é rápido (porque é pequeno/comprimido) e muito preciso (porque aprendeu a guardar tudo o que importa na fase 1).
  • O "Pulo do Gato": Eles descobriram que usar muitas perguntas diferentes sobre a mesma imagem é melhor do que usar apenas uma descrição longa. É como se você perguntasse a um amigo sobre uma foto de várias formas ("O que tem na esquerda?", "Qual a cor?", "Ele parece feliz?") em vez de apenas pedir "Descreva a foto". Isso garante que a memória comprimida não esqueça nenhum detalhe importante.

Resumo em uma frase

O CoMa é como ensinar um gênio a fazer um resumo perfeito de um livro inteiro em apenas 32 palavras, para que, depois, ele possa encontrar qualquer livro parecido em uma biblioteca gigante em segundos, tudo isso sem precisar ler milhões de livros manualmente para aprender a fazer o resumo.

Conclusão: Eles criaram um método simples e eficiente para transformar modelos de IA conversacionais em ferramentas de busca superpoderosas, economizando tempo, dinheiro e energia computacional.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →