Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Este artigo utiliza a Teoria de Aprendizado Singular (SLT) para interpretar o fenômeno de "grokking" em redes quadráticas como uma transição de fase entre bacias de solução concorrentes, derivando expressões fechadas para o coeficiente de aprendizado local e demonstrando empiricamente que a trajetória desse coeficiente é uma ferramenta confiável para rastrear a dinâmica de generalização.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait, Jiayi Li

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a resolver um quebra-cabeça matemático muito específico: a adição modular (basicamente, somar números em um relógio, onde 12 + 1 é 1, e não 13).

O que os pesquisadores descobriram é que esse robô passa por uma fase estranha chamada "Grokking" (ou "entendimento súbito").

Aqui está a história do que acontece, explicada de forma simples:

1. A Fase da "Decoreba" (Memorização)

No início, o robô é muito rápido. Ele vê os exemplos de treino e, em pouco tempo, acerta 100% deles. Parece que ele aprendeu tudo! Mas, se você der a ele um problema novo que ele nunca viu, ele falha miseravelmente.

  • A analogia: É como um aluno que decora as respostas de uma prova antiga. Ele tira 10 na prova antiga, mas se você mudar uma única questão, ele não sabe o que fazer. Ele está apenas "decorando", não entendendo a lógica.

2. O Silêncio e a Mudança

Depois de muito tempo treinando, o robô continua decoreba. Ele parece estagnado. Mas, de repente, após horas ou dias de treino contínuo, algo muda. O desempenho dele em problemas novos explode. Ele começa a entender a regra por trás dos números.

  • A analogia: É como se o cérebro do robô tivesse um "clique". De repente, ele para de decorar e começa a entender o conceito de "relógio".

3. O Segredo: Duas "Vales" no Terreno

A pergunta é: Por que isso acontece?
Os autores deste paper usam uma teoria chamada Teoria de Aprendizado Singular (SLT) para explicar. Eles imaginam o processo de aprendizado como um robô deslizando por uma paisagem montanhosa cheia de vales (soluções).

  • O Vale da Decoreba: É um vale fundo e estreito. É fácil cair nele e ficar preso lá. Ele resolve os problemas de treino perfeitamente, mas é "rígido" e não se adapta ao mundo real.
  • O Vale da Generalização: É um vale largo e plano (como uma grande planície). É mais difícil chegar lá, mas uma vez lá, o robô se move com facilidade e se adapta a qualquer situação nova.

O problema é que o robô (usando o algoritmo comum de aprendizado) começa no Vale da Decoreba. Ele fica preso lá por muito tempo.

4. A "Bússola" Mágica (O Coeficiente de Aprendizado Local)

A grande contribuição deste paper é a descoberta de uma "bússola" chamada Coeficiente de Aprendizado Local (LLC).

  • O que é? Imagine que o LLC mede o "tamanho" ou a "degeneração" de um vale.
    • Um vale estreito (Decoreba) tem um LLC alto.
    • Um vale largo (Generalização) tem um LLC baixo.
  • A mágica: O paper mostra que, se você monitorar esse LLC durante o treino, ele funciona como um termômetro.
    • Quando o LLC começa a cair drasticamente, é o sinal de que o robô está saindo do vale estreito da decoreba e entrando no vale largo da generalização.
    • O resultado: Você pode prever o "clique" do entendimento antes mesmo de ver a pontuação de teste melhorar!

5. O Que Isso Significa na Prática?

Os pesquisadores provaram matematicamente (usando redes neurais quadráticas, que são um tipo de rede mais simples) que:

  1. Existem soluções matemáticas distintas para o mesmo problema.
  2. Uma solução é "rígida" (má para o futuro) e a outra é "flexível" (boa para o futuro).
  3. O processo de aprendizado é uma transição de fase (como água virando gelo) entre esses dois vales.

Eles também descobriram que o tamanho do passo que o robô dá (a "taxa de aprendizado") importa muito:

  • Passos muito pequenos podem deixar o robô preso na decoreba por muito tempo.
  • Passos maiores podem ajudar o robô a "pular" para fora do vale estreito e encontrar o vale largo mais rápido.

Resumo da Ópera

Este paper diz que o "Grokking" não é magia. É uma viagem física e matemática entre dois tipos de soluções.

  • Antes: O robô está preso em uma solução "rígida" que só serve para decorar.
  • Depois: O robô encontra uma solução "flexível" que entende o mundo.
  • A Ferramenta: O LLC é a ferramenta que nos permite ver essa viagem acontecendo em tempo real, antes que o robô pareça ter "acordado".

É como se, em vez de esperar o robô passar na prova final para saber se ele aprendeu, pudéssemos olhar para o mapa do terreno e ver exatamente quando ele está prestes a sair da caverna da decoreba e entrar na luz da compreensão.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →