GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um modelo de Inteligência Artificial gigantesco e super inteligente) que consegue responder a qualquer pergunta sobre o mundo, ver imagens e entender contextos complexos. O problema? Esse gênio é tão grande e pesado que não cabe no seu celular, nem no seu computador portátil. Ele precisa de uma usina de energia inteira para funcionar.

Agora, imagine que você quer ter esse gênio no seu bolso. A solução óbvia seria criar um "mini-gênio" (um modelo pequeno e leve). Mas, como ensinar um iniciante a pensar como um mestre?

É aqui que entra o GenRecal, o "herói" deste artigo.

O Problema: Línguas Diferentes

Até hoje, tentar ensinar um modelo pequeno a imitar um grande era como tentar ensinar um falante de português a imitar um falante de japonês apenas fazendo-os sentarem lado a lado.

Os modelos grandes e pequenos usam "dicionários" (chamados de tokenizers) diferentes.
Eles contam as palavras de formas diferentes.
Eles organizam as ideias de maneiras distintas.

Os métodos antigos de ensino (chamados de "destilação") diziam: "Só podemos ensinar se vocês usarem o mesmo dicionário e a mesma gramática". Isso limitava muito quem podia ser o professor e quem podia ser o aluno. Se o professor falasse "Qwen" e o aluno falasse "Llama", a aula era cancelada.

A Solução: O "Tradutor Mágico" (Recalibrator)

O GenRecal introduz uma peça nova no meio da sala de aula chamada Recalibrator (o Re-calibrador). Pense nele como um tradutor simultâneo genial ou um ponte flutuante.

A Aula (Treinamento):
- O Professor (Modelo Grande) explica algo complexo.
- O Aluno (Modelo Pequeno) ouve e tenta entender.
- Como eles falam "línguas" diferentes, o Recalibrator entra em ação. Ele pega o que o aluno "pensou" (sua representação interna) e o traduz instantaneamente para a "língua" do professor.
- O professor então olha para essa tradução e diz: "Isso! Você pensou exatamente como eu!" ou "Quase lá, tente ajustar assim".
- O aluno aprende a pensar como o professor, mesmo que suas "palavras" internas sejam diferentes.
O Truque de Magia:
- O Recalibrator é usado apenas durante o treinamento. É como um professor particular que ajuda o aluno a estudar.
- Quando o aluno está pronto para trabalhar no mundo real (na hora de usar o app no celular), o professor e o tradutor saem da sala. O aluno fica sozinho, mas agora ele já sabe pensar como o gênio. Ele não fica mais pesado; ele apenas ficou mais inteligente.

Por que isso é revolucionário?

Antes, você só podia tentar ensinar um modelo pequeno se ele fosse "irmão" do modelo grande (usando a mesma tecnologia base). Com o GenRecal, você pode pegar o melhor professor do mundo (seja ele de qualquer família de IA) e ensinar qualquer aluno (seja ele de qualquer família de IA).

Analogia do Trem: Imagine que os modelos grandes são trens de alta velocidade e os pequenos são bicicletas. Antes, você só podia ensinar o ciclista a andar se ele tivesse rodas do mesmo tamanho que o trem. Com o GenRecal, você cria uma plataforma de transferência que permite que o ciclista aprenda a velocidade e a direção do trem, independentemente do tamanho das rodas.

Os Resultados

Os testes mostraram que, usando essa técnica:

Modelos pequenos (que cabem no celular) conseguiram superar modelos grandes e pesados em testes de raciocínio, matemática e visão.
Eles conseguiram fazer o que antes só modelos "fechados" e caros (como o GPT-4V) conseguiam fazer.
A eficiência aumentou: você não precisa de um supercomputador para ter inteligência de ponta.

Em resumo: O GenRecal é como uma "ponte universal" que permite que qualquer inteligência artificial pequena aprenda com qualquer inteligência artificial grande, ignorando as barreiras de linguagem e estrutura, tornando a IA superpoderosa acessível para todos, até no seu smartphone.

Each language version is independently generated for its own context, not a direct translation.

Título: GenRecal: Geração após Recalibração de Modelos Visão-Linguagem (VLMs) Grandes para Pequenos

1. O Problema

Os Modelos Visão-Linguagem (VLMs) de última geração, baseados em Grandes Modelos de Linguagem (LLMs) massivos (ex: 72B+ parâmetros), alcançaram desempenho comparável a sistemas proprietários como o GPT-4V. No entanto, a implantação desses modelos em dispositivos com recursos limitados é inviável devido ao alto custo computacional.

A solução comum é a distilação de conhecimento (transferir conhecimento de um modelo "professor" grande para um "aluno" pequeno). Contudo, as técnicas de distilação tradicionais enfrentam uma limitação fundamental:

Incompatibilidade de Tokenizadores: A maioria dos métodos assume que o professor e o aluno compartilham o mesmo tipo de token (mesmo vocabulário, mesma segmentação de tokens e mesma ordem de índices).
Diversidade Arquitetural: Diferentes famílias de VLMs (ex: Qwen2-VL, InternVL, LLaVA) utilizam LLMs base diferentes (Qwen, Llama, InternLM) e, portanto, tokenizadores distintos. Isso resulta em:
- Tamanhos de vocabulário diferentes.
- Segmentação de texto e imagens divergente.
- Comprimentos de sequência de saída desiguais.
Consequência: Métricas de distância token a token (como Divergência KL) tornam-se impossíveis de calcular diretamente, restringindo severamente quais pares de modelos podem ser usados para distilação.

2. Metodologia: GenRecal

O GenRecal (Generation after Recalibration) é um framework de distilação de propósito geral, agnóstico ao tipo de token, projetado para superar essas incompatibilidades.

Arquitetura Principal:
O sistema consiste em três componentes:

VLM Professor (Grande): Gera representações ricas.
VLM Aluno (Pequeno): O modelo a ser otimizado.
Recalibrador (Recalibrator): Um módulo intermediário treinável que atua como uma "ponte" durante o treinamento.

Funcionamento do Recalibrador:

Objetivo: Alinhar e adaptar as representações de características (features) do VLM pequeno para o espaço latente do VLM grande, antes da "cabeça de linguagem" (language head).
Estrutura: Composto por dois blocos de decodificador (Rec-body) e duas camadas de projeção linear (Proj-pre e Proj-post).
- Proj-pre: Ajusta a dimensionalidade das características do professor para a do aluno.
- Rec-body: Processa a sequência concatenada de características (pergunta do aluno + resposta do professor) usando mecanismos de atenção e embeddings posicionais novos (NPE) para lidar com a ordem dos tokens.
- Proj-post: Restaura a dimensionalidade para a do professor, permitindo que a cabeça do professor interprete as características do aluno.

Processo de Treinamento (3 Estágios):

Alinhamento (Stage 1): Apenas o Recalibrador é treinado (VLMs congelados). O objetivo é aprender a mapear as características do aluno para o espaço do professor.
- Perda Autoregressiva ( $L_{ar}$ ): O Recalibrador tenta prever os índices de tokens de resposta do professor, dados os tokens de pergunta do aluno.
- Regularização: Uma perda adicional é aplicada para garantir que as representações do Recalibrador não se desviem excessivamente do espaço do professor.
Distilação (Stage 2): O VLM Aluno (VLM-body) é treinado para imitar o professor, utilizando o Recalibrador como intermediário. A perda de KL e a perda autoregressiva são combinadas.
Ajuste Fino (Stage 3): O Recalibrador e o Professor são removidos. O VLM Aluno é ajustado via Supervised Fine-Tuning (SFT) para melhorar a capacidade de seguir instruções.

Inferência: O Recalibrador é descartado após o treinamento. O modelo aluno final não tem custo computacional adicional em tempo de execução.

3. Contribuições Chave

Recalibração Agnóstica a Tokenizadores: O GenRecal permite a distilação entre qualquer combinação de VLMs, independentemente de seus vocabulários, segmentação de tokens ou arquiteturas de LLM subjacentes.
Alinhamento de Representações: Em vez de alinhar apenas logits (saídas finais), o método alinha as representações ocultas (hidden states) antes da cabeça de linguagem, preservando mais informação semântica e visual.
Generalização de Desempenho: Demonstra que alinhar características é crucial mesmo quando os tokenizadores são iguais, superando métodos tradicionais de distilação.
Eficiência: O módulo Recalibrador é leve e removido na inferência, tornando o processo viável para implantação em dispositivos com recursos limitados.

4. Resultados Experimentais

Os autores avaliaram o GenRecal em diversos benchmarks desafiadores (MM-Vet, MMMU, MMB, MathVista, etc.):

Superioridade sobre Distilação Tradicional: Mesmo quando professor e aluno compartilham o mesmo tokenizador (ex: Qwen2-VL-72B → Qwen2-VL-7B), o GenRecal superou significativamente a distilação tradicional (LLaVA-KD) e o SFT puro.
Flexibilidade de Pares: O método permitiu distilação entre modelos de famílias totalmente diferentes (ex: InternVL2.5-78B → Qwen2-VL-7B), algo impossível para métodos tradicionais.
Desempenho de Estado da Arte:
- Modelos pequenos (ex: InternVL2.5-8B) distilados com GenRecal superaram modelos grandes de código aberto e, em alguns benchmarks, rivalizaram com modelos fechados como o GPT-4o e Claude-3.5 Sonnet.
- Exemplo: O InternVL2.5-8B-GenRecal alcançou 73.2 no MM-Vet e 68.1 no MMMU, superando o modelo base de 8B em mais de 10 pontos em vários métricas.
Análise de Escala: A performance aumenta consistentemente com a escolha de professores mais poderosos e alunos mais capazes, validando a escalabilidade do método.
Ablação: A remoção da regularização ou da perda autoregressiva ( $L_{ar}$ ) resultou em quedas drásticas de desempenho, confirmando a importância do alinhamento explícito de características.

5. Significado e Impacto

O GenRecal representa um avanço significativo no campo de IA Eficiente e Distilação de Conhecimento Multimodal.

Quebra de Silos: Remove a barreira de compatibilidade de tokenizadores, permitindo que pesquisadores e engenheiros escolham o melhor professor e o melhor aluno independentemente da arquitetura.
Democratização de VLMs: Facilita a criação de modelos pequenos, rápidos e precisos que podem ser executados em dispositivos locais (edge devices), mantendo capacidades de raciocínio complexo.
Futuro: Abre caminho para distilação multi-fonte e o uso de representações intermediárias mais finas, estabelecendo um novo padrão para a transferência de conhecimento em modelos de visão e linguagem.

Em resumo, o GenRecal resolve o problema de incompatibilidade entre modelos heterogêneos, permitindo que o conhecimento de modelos massivos seja transferido eficientemente para modelos leves, superando as limitações das abordagens atuais.

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O Problema: Línguas Diferentes

A Solução: O "Tradutor Mágico" (Recalibrator)

Por que isso é revolucionário?

Os Resultados

Título: GenRecal: Geração após Recalibração de Modelos Visão-Linguagem (VLMs) Grandes para Pequenos

1. O Problema

2. Metodologia: GenRecal

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics