A universal compression theory for lottery ticket hypothesis and neural scaling laws

Este trabalho prova que funções genéricas invariantes a permutações podem ser comprimidas assintoticamente para funções de tamanho polilogarítmico com erro desprezível, fornecendo uma prova construtiva da hipótese do bilhete de loteria dinâmica e demonstrando que as leis de escala neural podem ser aceleradas de uma lei de potência lenta para um decaimento exponencial.

Hong-Yi Wang, Di Luo, Tomaso Poggio, Isaac L. Chuang, Liu Ziyin

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô gigante a falar a língua humana. Atualmente, para fazer isso, precisamos alimentar o robô com trilhões de palavras e dar a ele um cérebro com trilhões de conexões (parâmetros). É como se tivéssemos que encher um oceano inteiro de água apenas para que o robô aprenda a dizer "olá".

Mas, se olharmos para o cérebro humano, uma criança aprende a falar fluentemente ouvindo apenas algumas centenas de milhões de palavras. O cérebro humano é muito mais eficiente. A pergunta que os autores deste artigo se fazem é: Por que nossos computadores são tão "gulosos" e desperdiçam tanto?

A resposta que eles encontraram é surpreendente e revolucionária. Eles provaram matematicamente que não precisamos de trilhões de dados nem de trilhões de conexões. Podemos comprimir tudo isso em algo minúsculo, quase mágico, sem perder a inteligência.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Segredo da "Repetição" (Simetria)

Imagine que você tem uma sala cheia de 1 milhão de pessoas (os dados ou os neurônios do robô) e você quer saber a "média de altura" delas.

  • O jeito antigo: Você mede a altura de cada uma das 1 milhão de pessoas, anota tudo e faz a média. Demora muito e ocupa muito espaço.
  • O jeito novo (da teoria deles): Você percebe que a ordem das pessoas não importa. Se você trocar a pessoa da cadeira 1 com a da cadeira 100, a média de altura continua a mesma. Isso se chama simetria.

Os autores mostram que, quando algo é simétrico (a ordem não importa), você não precisa guardar a lista de todos os 1 milhão de nomes. Você só precisa guardar alguns resumos estatísticos (como a média, a variância, etc.).

2. A Analogia do "Suco de Frutas"

Pense nos dados como frutas.

  • Se você tem 1.000 maçãs, 1.000 laranjas e 1.000 bananas, e quer fazer um suco, você não precisa guardar cada fruta individualmente na geladeira.
  • Você pode espremer tudo e guardar apenas um copo de suco que contém a mesma informação de sabor e nutrientes.
  • A teoria deles diz que podemos "espremer" trilhões de dados em um "copo" minúsculo (matematicamente, algo do tamanho de um logaritmo, que cresce muito devagar).

3. O "Bilhete de Loteria" Dinâmico

Existe uma ideia famosa em IA chamada "Hipótese do Bilhete de Loteria". Ela diz que, dentro de uma rede neural gigante, existe um "bilhete premiado" (um subconjunto pequeno de conexões) que, se treinado sozinho, funciona tão bem quanto o gigante.

  • O problema: Ninguém conseguia provar como encontrar esse bilhete ou garantir que o robô aprenderia da mesma forma.
  • A descoberta deles: Eles provaram que qualquer rede neural gigante pode ser transformada em uma versão minúscula (com apenas algumas centenas de conexões) que aprende exatamente da mesma maneira e chega ao mesmo resultado. É como se você pudesse pegar um livro de 1.000 páginas e transformá-lo em um resumo de 10 páginas que contém todas as histórias originais, sem perder nenhum detalhe importante.

4. O Que Isso Significa para o Futuro?

Se essa teoria for aplicada na prática (o que eles estão começando a testar), as consequências são enormes:

  • Economia de Energia e Dinheiro: Treinar modelos de IA hoje custa milhões de dólares e consome muita energia. Com essa compressão, poderíamos treinar modelos superinteligentes em computadores comuns, gastando uma fração do custo.
  • Dados Menos Preciosos: Não precisaríamos mais coletar trilhões de dados da internet. Poderíamos treinar robôs com dados muito menores, mas mais "bem organizados".
  • Velocidade: Modelos menores são mais rápidos. A IA poderia rodar no seu celular com a mesma inteligência de um supercomputador de hoje.

Resumo em uma Frase

Os autores descobriram uma "lei universal" que diz: A inteligência não depende do tamanho bruto dos dados ou do cérebro, mas sim de como organizamos a informação. Eles provaram que podemos "espremer" a inteligência de um gigante em um anão, mantendo todo o poder de aprendizado, graças a uma propriedade matemática chamada simetria.

É como se eles tivessem encontrado a fórmula para transformar um elefante em um rato que, milagrosamente, ainda consegue carregar a mesma carga de um elefante.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →