Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Este artigo propõe a "capacidade de informação", uma nova métrica que avalia a eficiência de modelos de linguagem grandes através do desempenho de compressão de texto em relação à complexidade computacional e à eficiência do tokenizer, demonstrando sua utilidade para prever o desempenho, identificar vieses linguísticos e orientar o desenvolvimento futuro de modelos mais eficientes.

Cheng Yuan, Jiawei Shao, Xuelong Li

Publicado 2026-03-11
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de livros (os dados da internet) e quer construir um "super-ler" (um Modelo de Linguagem ou LLM) que consiga prever qual palavra vem a seguir em qualquer frase. Quanto melhor esse "super-ler" for em prever a próxima palavra, mais inteligente ele parece.

Mas aqui está o problema: esses modelos estão ficando gigantes, consumindo energia como se não houvesse amanhã e custando uma fortuna para rodar. As empresas estão tentando descobrir: "Quanto inteligência conseguimos por cada gota de energia que gastamos?"

Até agora, ninguém tinha uma régua perfeita para medir isso, porque os modelos usam "alfabetos" diferentes (chamados tokenizers) e têm arquiteturas diferentes. É como tentar comparar a eficiência de um carro a diesel com um elétrico apenas olhando para o tamanho do motor, sem considerar o tipo de combustível ou a aerodinâmica.

Os autores deste paper criaram uma nova régua chamada Capacidade de Informação. Vamos explicar como funciona usando analogias simples:

1. A Ideia Central: Comprimir é Ser Inteligente

Pense em tentar enviar uma mensagem longa por um cabo de telefone antigo e lento.

  • O modelo "burro": Ele envia cada letra exatamente como está. Ocupa muito espaço e demora.
  • O modelo "inteligente": Ele percebe padrões. Se você está escrevendo sobre "cachorros", ele sabe que a próxima palavra provavelmente é "latido" ou "pata", e não "banana". Ele pode "comprimir" a mensagem, enviando apenas o essencial, porque o receptor (que também é inteligente) sabe preencher as lacunas.

A Capacidade de Informação mede exatamente isso: Quanto o modelo consegue "enxugar" o texto (comprimir) em relação ao quanto ele gasta de energia (computação) para fazer isso.

Se um modelo consegue comprimir muito texto gastando pouca energia, ele tem uma alta capacidade de informação. É como ter um caminhão de mudança que carrega 100 caixas usando apenas um litro de gasolina.

2. O Segredo Esquecido: O "Tradutor" (Tokenizer)

Um dos maiores achados do paper é que ninguém estava prestando atenção no Tokenizer.
Imagine que o Tokenizer é um tradutor que transforma o texto humano em "pedaços" que o computador entende.

  • Um tradutor ruim divide a palavra "elefante" em 5 pedacinhos: "e", "l", "e", "f", "a", "n", "t", "e".
  • Um tradutor bom vê "elefante" como 1 único bloco.

Se o seu tradutor é ruim, você precisa enviar 8 pedacinhos em vez de 1. Isso gasta 8 vezes mais energia e tempo, mesmo que o "cérebro" do modelo seja o mesmo. A nova métrica Capacidade de Informação leva isso em conta, punindo modelos que usam tradutores ineficientes.

3. O Que Eles Descobriram?

Os autores testaram 56 modelos diferentes (como Llama, Qwen, DeepSeek) em 5 tipos de textos diferentes (livros, PDFs, código de programação, textos em chinês, etc.).

  • A Regra de Ouro: Dentro de uma mesma família de modelos (ex: a família "Qwen"), não importa se o modelo é pequeno ou gigante; a Capacidade de Informação deles é quase a mesma. Isso é incrível! Significa que você pode testar um modelo pequeno e prever com precisão como o modelo gigante da mesma família vai se comportar, economizando milhões em testes.
  • O Viés Linguístico: Os modelos são "viciados" em inglês. Quando testados em textos chineses ou em código de programação, a eficiência cai drasticamente para alguns modelos ocidentais. É como um chef francês que é genial na cozinha francesa, mas perde a habilidade quando tenta cozinhar comida japonesa.
  • Arquitetura MoE (Mistura de Especialistas): Modelos que ativam apenas "especialistas" internos para cada tarefa (em vez de usar todo o cérebro de uma vez) são mais eficientes. Eles conseguem comprimir mais gastando menos.

4. Por Que Isso Importa para Você?

  • Economia de Energia: Se as empresas usarem essa métrica, elas poderão escolher modelos que fazem o mesmo trabalho gastando menos eletricidade, o que é melhor para o planeta e para o bolso.
  • Previsão de Futuro: Em vez de treinar um modelo gigante e caro para ver se ele funciona, eles podem treinar um pequeno, medir a "Capacidade de Informação" e saber exatamente como o gigante vai performar.
  • Justiça na Comparação: Agora podemos comparar modelos de empresas diferentes de forma justa, sabendo quem realmente é eficiente e quem apenas é "gordo" (muito grande, mas ineficiente).

Resumo em uma Frase

A Capacidade de Informação é uma nova forma de medir a inteligência de um modelo de IA não pelo tamanho do seu cérebro, mas por quão bem ele consegue "resumir" o mundo gastando o mínimo de energia possível, levando em conta se ele usa um "tradutor" eficiente para falar com o computador.

É como dizer: "Não me diga quantos cavalos seu carro tem; me diga quantos quilômetros ele roda com um litro de gasolina."