Scaling Laws and Symmetry, Evidence from Neural… — Explicação em linguagem simples

Imagine que você está tentando ensinar um robô a prever como os átomos em uma molécula se moverão e interagirão. Isso é um pouco como ensinar uma criança a entender como uma estrutura complexa de Lego se mantém unida. Você pode dar ao robô dois tipos diferentes de manuais de instrução:

O Manual "Cego": Você apenas mostra ao robô milhões de imagens de estruturas de Lego e diz: "Descubra as regras sozinho." O robô precisa aprender tudo do zero, incluindo o fato de de que, se você girar toda a estrutura, a física não muda.
O Manual "Simetria": Você dá ao robô um manual que diz explicitamente: "Ei, lembre-se, se você girar esta estrutura, ela continua sendo a mesma estrutura. Se você a virar, as regras permanecem as mesmas." Você incorpora as leis da física (simetria) diretamente no cérebro do robô.

Por muito tempo, muitos pesquisadores acreditaram na abordagem "Cega". Eles pensavam que, se você desse ao robô dados suficientes e poder computacional suficiente (um "cérebro maior"), ele eventualmente descobriria as regras de simetria por conta própria. Eles acreditavam que ensinar explicitamente as regras era desnecessário e que um modelo simples e flexível eventualmente alcançaria o mesmo nível.

Este artigo diz: "Na verdade, não. O manual 'Simetria' é muito melhor, e a lacuna aumenta conforme você escala para tamanhos maiores."

Aqui está a análise de suas descobertas usando analogias simples:

1. A Corrida: Velocidade vs. Eficiência

Os pesquisadores realizaram uma corrida entre diferentes tipos de cérebros de robô (arquiteturas) para ver quão rápido eles podiam aprender a prever forças atômicas.

Os Robôs "Cegos" (Não Confinados): São flexíveis, mas ineficientes. Eles precisam "reaprender" o fato de que uma molécula girada é a mesma molécula toda vez que a veem.
Os Robôs "Simetria" (Equivariantes): Têm as regras de rotação e translação incorporadas. Eles não desperdiçam energia reaprendendo física básica.

A Descoberta: Quando os robôs eram pequenos, a diferença não era enorme. Mas, à medida que os pesquisadores tornavam os robôs massivos (escalando os dados e o poder computacional), os robôs "Simetria" não apenas mantiveram a frente; eles se distanciaram dramaticamente. Os robôs "Cegos" atingiram um limite onde adicionar mais dados não os ajudava muito, enquanto os robôs "Simetria" continuavam ficando cada vez mais inteligentes.

2. O "Grau" de Simetria Importa

Nem todos os robôs "Simetria" são iguais. Alguns entendem apenas rotações simples (como uma moeda plana), enquanto outros entendem rotações 3D complexas (como um globo girando).

Simetria de Baixa Ordem: Entende regras básicas.
Simetria de Alta Ordem: Entende regras muito complexas e detalhadas sobre como as formas interagem no espaço 3D.

A Descoberta: Quanto mais complexas as regras de simetria incorporadas no robô, mais rápido ele aprendia. Um robô com simetria "de Alta Ordem" aprendeu tão mais rápido que a lacuna entre ele e o robô "Cego" tornou-se um abismo. É como comparar um aluno que conhece o alfabeto com um aluno que já conhece a gramática e o vocabulário da língua; à medida que o livro fica mais grosso, o segundo aluno deixa o primeiro para trás na poeira.

3. A "Lição Amarga" vs. Realidade

Existe uma ideia famosa em IA chamada "Lição Amarga", que sugere que devemos parar de tentar codificar manualmente o conhecimento humano (como a simetria) na IA e simplesmente deixar a IA aprender isso a partir de dados brutos, porque é mais barato e escala melhor.

Este artigo argumenta: No mundo dos átomos e moléculas, a "Lição Amarga" está errada. Se você tentar deixar um modelo descobrir a simetria por conta própria, é como pedir a um aluno que redescubra a gravidade. É possível, mas é incrivelmente ineficiente. Até o momento em que o aluno descobre, o aluno que foi ensinado sobre a gravidade já está voando.

4. O Equilíbrio "Cachinhos Dourados"

O artigo também analisou como gastar dinheiro (poder computacional) da maneira mais eficiente.

O Jeito Antigo: Talvez você devesse comprar um cérebro maior (mais parâmetros) ou obter mais livros didáticos (mais dados).
A Nova Descoberta: Acontece que você precisa comprar ambos ao mesmo tempo. Se você dobrar seus dados, também deve dobrar o tamanho do seu modelo. Essa "escala em tandem" funciona melhor para todos os tipos de robôs, mas os robôs "Simetria" são muito mais eficientes ao usar esse poder combinado.

5. E quanto a "Trapacear" com Funções de Perda?

Alguns pesquisadores tentaram enganar os robôs "Cegos" adicionando uma pontuação de penalidade se eles cometessem um erro sobre a simetria (por exemplo: "Se você disser que uma molécula girada é diferente, você recebe uma nota ruim").

A Descoberta: Isso não funcionou bem. É como dizer a um aluno: "Não esqueça as regras", mas não realmente ensiná-lo as regras. O robô ainda tinha que lutar para aprender o padrão. Era muito melhor simplesmente construir a regra no cérebro do robô desde o início.

A Conclusão

Se você quer construir uma IA superinteligente para entender moléculas, não basta jogar mais dados em um modelo simples e flexível e esperar que ele descubra as leis da física. Construa as leis da física diretamente no design do modelo.

À medida que você escala para tamanhos massivos, os modelos que respeitam as simetrias fundamentais do universo (rotação, translação) não serão apenas ligeiramente melhores; eles serão exponencialmente mais poderosos do que aqueles que tentam aprender essas regras do zero. A abordagem "Simetria" muda a própria natureza da curva de aprendizado, tornando a tarefa mais fácil e os resultados melhores.

Enunciado do Problema
O artigo aborda o comportamento de escalonamento dos Potenciais Interatômicos de Redes Neurais (NNIPs), que são modelos de aprendizado profundo projetados para prever propriedades mecânicas quânticas (especificamente energia potencial e forças atômicas) de sistemas atômicos. Embora a literatura recente em linguagem natural e visão sugira que as leis de escalonamento (relações de lei de potência entre desempenho e dados/parâmetros/computação) sejam amplamente independentes da arquitetura — implicando que os modelos podem aprender vieses indutivos necessários, como simetria, por conta própria à medida que escalonam —, essa visão é contestada em domínios geométricos. Os autores investigam se a equivariância arquitetônica explícita (impondo simetrias rotacionais e de permutação) oferece uma vantagem distinta nas leis de escalonamento para NNIPs, ou se modelos mais simples, não equivariantes, podem alcançar desempenho comparável dado computação suficiente.

Metodologia
Os autores realizam um estudo empírico abrangente no conjunto de dados de moléculas neutras OpenMol (aproximadamente 34 milhões de amostras de treinamento, ~9,2 × 10⁸ tokens). Eles comparam quatro famílias arquitetônicas distintas representando diferentes graus de restrições de simetria:

MPNN Sem Restrições: Uma Rede Neural de Passagem de Mensagens (MPNN) padrão processando características geométricas (posições relativas) sem restrições de simetria.
Escalares Invariantes (GemNet-OC): Utiliza características invariantes (distâncias, ângulos, diedros) mas aproxima funções equivariantes via passagem de mensagens baseada em arestas; classificado como uma arquitetura de ordem tensorial $\ell=0$ e 4 corpos.
Vetores Cartesianos (EGNN): Uma GNN equivariante sob $E(n)$ usando canais vetoriais (ordem tensorial $\ell=1$ ).
Tensores Esféricos de Alta Ordem (eSEN): Uma rede equivariante utilizando representações irredutíveis de ordem superior do grupo de rotação ( $\ell \ge 2$ ), empregando alinhamento de quadro para esparsificar produtos tensoriais.

O estudo emprega um regime de treinamento de uma única época para alinhar-se com a literatura teórica de leis de escalonamento, utilizando otimizadores AdamW sem agendamento de taxa de aprendizado para mitigar artefatos de agendamento de taxa de aprendizado. As leis de escalonamento são ajustadas contra três métricas:

Computação: Tanto FLOPs teóricos ( $C$ ) quanto tempo de treinamento em tempo real (horas de GPU, $H$ ).
Dados: Número de tokens de treinamento ( $D$ ).
Parâmetros: Tamanho do modelo ( $N$ ).

Os autores também investigam os efeitos da regularização por perda de simetria (penalizando desvios da equivariância em modelos não equivariantes), treinamento de múltiplas épocas com aumento de dados e média de grupo no momento do teste.

Principais Contribuições

Expoentes de Escalonamento Dependentes da Arquitetura: O artigo demonstra que os expoentes de escalonamento não são constantes entre arquiteturas. À medida que o "grau" de equivariância aumenta (de sem restrições para baixa ordem para alta ordem), os expoentes de lei de potência para dados ( $\beta$ ) e parâmetros ( $\alpha$ ) aumentam significativamente.
Escalonamento Superior de Modelos Equivariantes: Arquiteturas equivariantes, particularmente aquelas com representações tensoriais de alta ordem (eSEN), exibem curvas de escalonamento mais íngremes. Isso implica que a lacuna de desempenho entre modelos equivariantes e não equivariantes se amplia à medida que a computação e os dados escalonam, contradizendo a noção de que os modelos podem simplesmente "aprender" a simetria posteriormente.
Alocação Ótima de Computação: O estudo encontra que, para treinamento ótimo em computação, o tamanho do modelo ( $N$ ) e o tamanho do conjunto de dados ( $D$ ) devem escalar em conjunto ( $N \propto D$ ) em todas as arquiteturas, espelhando descobertas em modelagem de linguagem (escalonamento Chinchilla). No entanto, a constante de proporcionalidade e a redução de perda resultante diferem com base no viés de simetria da arquitetura.
Ineficácia da Perda de Simetria: Impor simetria através de um termo de perda (regularização) em modelos sem restrições não produz os mesmos benefícios de escalonamento que incorporar a equivariância na arquitetura. Embora melhore ligeiramente a eficiência dos dados, não consegue igualar os expoentes de escalonamento de modelos equivariantes nativos.
Insights sobre Múltiplas Épocas e Aumento: Em configurações de múltiplas épocas com poucos dados, o aumento de dados é necessário para modelos sem restrições para evitar overfitting e recuperar o escalonamento de lei de potência. No entanto, mesmo com aumento, modelos sem restrições não igualam os expoentes de escalonamento de modelos equivariantes.

Resultados

Leis de Escalonamento: A perda de validação segue uma lei de potência $L \propto C^{-\gamma}$ $L \propto C^{- γ}$ . O expoente $\gamma$ $γ$ aumenta com a complexidade arquitetônica:
- MPNN Sem Restrições: $\gamma \approx 0,14$
- EGNN: $\gamma \approx 0,17$
- GemNet-OC: $\gamma \approx 0,25$
- eSEN (Alta ordem): $\gamma \approx 0,40$
Escalonamento de Dados e Parâmetros:
- Expoentes de escalonamento de dados ( $\beta$ ) variam de 0,31 (Sem Restrições) a 0,75 (eSEN).
- Expoentes de escalonamento de parâmetros ( $\alpha$ ) variam de 0,28 (Sem Restrições) a 0,82 (eSEN).
Perda de Simetria: Adicionar um termo de perda de simetria a um modelo sem restrições aumenta ligeiramente o expoente de dados ( $\beta$ ) mas diminui o expoente de parâmetros ( $\alpha$ ), resultando em nenhum ganho líquido na inclinação da fronteira ótima de computação em comparação com a linha de base sem restrições.
Profundidade: Para modelos equivariantes, a profundidade ótima da rede aumenta com a ordem da representação de rotação, enquanto modelos sem restrições sofrem de super-suavização em profundidades mais altas.

Significância e Alegações
O artigo argumenta que, contrariamente à hipótese da "lição amarga" (que sugere que os modelos devem aprender vieses indutivos a partir dos dados), a simetria arquitetônica explícita é crítica para o escalonamento em tarefas geométricas. Os autores afirmam que a simetria não é meramente uma técnica de redução de dados, mas altera fundamentalmente a dificuldade inerente da tarefa e suas leis de escalonamento.

A principal significância reside na descoberta de que representações equivariantes de alta ordem se traduzem em melhores expoentes de escalonamento. Isso sugere que, para NNIPs em grande escala, investir em arquiteturas complexas e conscientes da simetria (como o eSEN) é mais eficaz do que escalar modelos mais simples e não equivariantes. Os autores concluem que vieses indutivos fundamentais, como a simetria, devem ser codificados na arquitetura em vez de deixados para o modelo descobrir, pois eles alteram a própria trajetória de escalonamento.

O artigo mantém-se modesto quanto ao seu escopo, notando limitações como o foco no treinamento de uma única época, o conjunto de dados específico utilizado (moléculas neutras) e a exclusão de estratégias de pré-treinamento por remoção de ruído usadas em outros trabalhos recentes. Ele solicita trabalhos teóricos futuros para explicar por que a simetria altera os expoentes de escalonamento e sugere estender esses estudos para tipos moleculares mais diversos e regimes de múltiplas épocas.

Scaling Laws and Symmetry, Evidence from Neural Force Fields