Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Este artigo analisa a "inflação de modalidade" como uma fonte crítica de ineficiência energética na inferência de modelos de linguagem multimodais (MLLMs), quantificando o aumento de consumo de energia em comparação com modelos baseados apenas em texto, identificando gargalos específicos por estágio e propondo o escalonamento dinâmico de tensão e frequência (DVFS) como uma estratégia eficaz para otimização.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin, Dimitrios S. Nikolopoulos

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Linguagem Multimodais (MLLMs) são como chefs de cozinha de elite que, antes, só sabiam cozinhar com receitas escritas (texto). Agora, eles aprenderam a cozinhar também olhando para fotos e vídeos (imagens). Isso é incrível, mas o artigo que você enviou revela um segredo sujo: essa nova habilidade está gastando uma energia elétrica absurda, e nem todos os chefs gastam da mesma forma.

Os autores chamam esse problema de "Inflação de Modalidade". Vamos descomplicar isso com algumas analogias do dia a dia.

1. O Problema: A "Inflação" da Comida

Quando você pede um prato apenas com uma receita (texto), o chef lê e prepara. Rápido e eficiente.
Mas quando você manda uma foto do prato que quer, o processo muda:

  1. O Fotógrafo (Codificador de Visão): Antes de cozinhar, o chef precisa mandar um fotógrafo analisar a foto, medir cada ingrediente e transformar a imagem em uma lista de ingredientes detalhada (os "tokens visuais").
  2. A Lista Gigante: Essa lista de ingredientes gerada pela foto é enorme. Às vezes, uma única foto gera milhares de "palavras" de ingredientes.
  3. O Caos na Cozinha: Agora, o chef tem que ler essa lista gigante antes de começar a cozinhar. Isso faz a cozinha ficar lotada, o forno esquentar demais e a conta de luz disparar.

O artigo mostra que, dependendo de como o "chef" (o modelo) foi treinado, essa etapa extra pode aumentar o gasto de energia em 17% até 94% apenas para processar a mesma coisa que um modelo de texto faria. É como se, para fazer um sanduíche, você tivesse que primeiro construir uma fábrica inteira só para analisar o pão.

2. Os Dois Tipos de "Gastos" (Arquiteturas Diferentes)

Os pesquisadores testaram quatro modelos diferentes e descobriram que eles "queimam" energia de formas distintas:

  • O Chef "Fotógrafo Caríssimo" (Ex: Qwen2.5-VL):
    Este modelo tem um fotógrafo muito sofisticado e lento. Ele gasta muita energia antes mesmo de começar a cozinhar (na etapa de codificação da imagem). É como ter um fotógrafo que usa equipamentos de cinema para tirar uma foto de um cachorro. O gasto inicial é enorme.
  • O Chef "Lista Infinita" (Ex: LLaVA-OneVision):
    Este modelo tem um fotógrafo rápido, mas ele transforma a foto em uma lista de ingredientes tão longa que a cozinha fica cheia de papelada. O chef gasta muita energia apenas lendo essa lista gigante antes de cozinhar (na etapa de "preenchimento" ou prefill). É como ter que ler um livro inteiro só para saber que vai fazer um sanduíche.

A lição: Não existe uma solução única. O que economiza energia em um modelo pode desperdiçar no outro.

3. O Segredo da Economia: "Diminuir a Marcha" (DVFS)

A parte mais legal do artigo é a solução proposta. Eles descobriram que a GPU (o cérebro do computador) não precisa estar sempre no "modo turbo".

Imagine que você está dirigindo um carro:

  • O Erro Atual: O carro fica no modo "Super Turbo" o tempo todo, mesmo quando você está só andando devagar no trânsito ou esperando o semáforo. Isso gasta muita gasolina.
  • A Solução Proposta (DVFS): O artigo sugere um sistema inteligente que muda a marcha do carro dependendo da tarefa:
    • Quando o "fotógrafo" está trabalhando (codificando a imagem), o carro pode andar em uma marcha mais baixa, gastando menos energia, porque não precisa de velocidade máxima.
    • Quando o "chef" está cozinhando rápido (gerando a resposta), aí sim, você acelera.

Os testes mostraram que, ao ajustar a velocidade (frequência) da GPU em cada etapa separadamente, é possível economizar muita energia sem deixar o usuário perceber que o sistema ficou mais lento.

4. Por que isso importa para o futuro?

Hoje, os data centers (os "grandes restaurantes" onde esses modelos rodam) estão consumindo tanta energia que isso se torna um problema ambiental e financeiro.

Se continuarmos usando os mesmos métodos antigos para todos os modelos multimodais, vamos gastar energia demais. A mensagem principal do artigo é: Precisamos tratar cada modelo como um caso único.

  • Se o modelo é lento na análise de imagem, diminua a velocidade da GPU nessa etapa.
  • Se o modelo gera listas gigantes, otimize a leitura dessas listas.

Resumo em uma frase

Este artigo diz que, para fazer a Inteligência Artificial "ver" imagens sem queimar o planeta (e sua conta de luz), precisamos parar de tratar todos os modelos iguais e começar a ajustar a "marcha" da energia em cada passo da receita, economizando onde não precisamos de turbo.