Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando uma inteligência artificial (uma rede neural) para reconhecer gatos e cachorros. Durante esse processo, o computador está tentando encontrar o "ponto perfeito" onde o erro é mínimo. A área onde esse erro é baixo é chamada de "vale" no mapa de aprendizado.

Até agora, os cientistas pensavam que, uma vez que a IA encontrasse um desses vales (um bom resultado), ela poderia facilmente caminhar por um caminho plano e seguro até encontrar outro vale diferente, como se todos os bons resultados estivessem conectados por uma estrada de asfalto lisa.

Mas este novo estudo, apresentado na conferência ICLR 2026, descobriu algo surpreendente e um pouco contraditório: embora existam caminhos de "baixo erro" conectando esses vales, a IA quase nunca consegue atravessá-los. Ela fica presa no seu próprio vale.

Por que isso acontece? A resposta está em uma força invisível chamada força entrópica, que podemos entender com uma analogia divertida.

A Analogia do Vale com "Colinas de Areia"

Imagine que você tem dois vales profundos e bonitos (dois ótimos resultados para a IA). Entre eles, existe um caminho que, se você olhar apenas para a altura (o "erro"), parece ser plano e fácil de atravessar.

No entanto, a descoberta deste paper é que, embora o chão seja plano, as paredes do caminho mudam de forma.

Nos vales (as pontas): O chão é largo e plano. É como estar em uma grande sala de estar. Se você estiver um pouco desequilibrado (devido ao "ruído" ou aleatoriedade do treinamento), você tem muito espaço para se mover sem cair.
No meio do caminho: O chão continua na mesma altura, mas as paredes começam a subir e ficar mais íngremes. É como se você estivesse caminhando por um corredor estreito e alto.

Aqui entra a mágica da física: o treinamento da IA não é perfeito; ele tem um pouco de "tremedeira" ou ruído (como se fosse uma pessoa bêbada tentando andar em linha reta).

Se você estiver no corredor estreito (meio do caminho), qualquer pequena trepidação faz você bater nas paredes íngremes. A física diz que, estatisticamente, é muito mais provável que você seja "empurrado" de volta para a sala larga (o vale), onde há mais espaço para se mover sem bater em nada.

Essa "empurrada" de volta para o vale não é porque o vale é mais baixo (o chão é plano), mas porque o vale é mais largo. É como se a IA preferisse ficar onde ela tem mais liberdade de movimento. O estudo chama isso de confinamento entrópico.

O Que os Cientistas Descobriram na Prática

Os autores fizeram experimentos reais com redes neurais treinadas para reconhecer imagens (como o famoso conjunto de dados CIFAR-10). Eles mediram a "curvatura" (a inclinação das paredes) ao longo desses caminhos entre dois pontos de sucesso.

O "Bump" de Curvatura: Eles viram que, assim que você sai de um ponto de sucesso e começa a caminhar em direção a outro, as paredes do caminho ficam mais íngremes (a curvatura aumenta), mesmo que o erro continue baixo.
A Força Invisível: Essa mudança de curvatura cria uma força que empurra a IA de volta para o ponto de partida. É como se houvesse um vento invisível soprando contra você se você tentar atravessar o meio do caminho.
O Papel do "Ruído": Quanto mais "barulhento" é o treinamento (por exemplo, usando lotes menores de dados ou uma taxa de aprendizado maior), mais forte é essa força de empurrão. É como se a trepidação da pessoa bêbada fosse maior, fazendo com que ela seja lançada ainda mais rápido de volta para a sala larga.

Por que isso é importante?

Isso muda a forma como entendemos como as IAs aprendem:

Não é apenas sobre o "erro": Antes, achávamos que a IA só se importava em baixar o erro. Agora sabemos que ela também "se importa" com o espaço disponível (a entropia). Ela prefere ficar em lugares largos e seguros, mesmo que o caminho para outro lugar seja energeticamente possível.
A IA fica "presa": Isso explica por que, mesmo sabendo que existem outros pontos de sucesso conectados, a IA raramente explora esses caminhos. Ela fica confinada no seu próprio "quarto" porque o "corredor" entre os quartos é muito estreito e perigoso para a sua "trepidação".
Generalização: Isso pode ajudar a explicar por que as IAs conseguem generalizar bem (funcionar bem em dados novos). Talvez os pontos que generalizam bem sejam "salas largas" protegidas por essas paredes invisíveis, impedindo que a IA escorregue para soluções que apenas "decoram" os dados (overfitting).

Resumo em uma frase

O estudo mostra que, embora existam caminhos planos conectando diferentes soluções perfeitas para uma IA, a "trepidação" natural do treinamento cria uma força invisível que empurra a IA de volta para o seu ponto de partida, porque é lá que ela tem mais espaço para se mover com segurança. É como se a IA preferisse ficar em uma sala espaçosa a tentar atravessar um corredor estreito e perigoso, mesmo que o chão do corredor seja tão baixo quanto o da sala.

Each language version is independently generated for its own context, not a direct translation.

Título: Confinamento Entrópico e Conectividade de Modos em Redes Neurais Superparametrizadas

1. O Problema

O artigo aborda um paradoxo fundamental na teoria de otimização de redes neurais profundas:

Conectividade de Modos: Estudos anteriores demonstraram que diferentes mínimos encontrados por algoritmos de otimização (como SGD) são frequentemente conectados por caminhos de baixa perda (low-loss paths) no espaço de parâmetros. Isso sugere que a paisagem de perda não é rugosa, mas sim uma grande "vale" contínuo.
Confinamento da Dinâmica: Paradoxalmente, a dinâmica de otimização (treinamento) raramente explora esses caminhos intermediários. O SGD converge para um mínimo específico e tende a permanecer confinado a uma bacia convexa, evitando regiões intermediárias que, teoricamente, possuem perda igual ou até menor.

A questão central é: Por que a otimização não explora os caminhos de baixa perda que conectam os mínimos, se energeticamente eles são acessíveis?

2. Metodologia

Os autores propõem que a resposta reside nas forças entrópicas geradas pela interação entre o ruído do SGD e as variações de curvatura ao longo desses caminhos.

Modelo Teórico: Utilizam uma analogia da física estatística, onde a paisagem de perda é tratada como um potencial de energia. O ruído do SGD (devido a minibatches e taxas de aprendizado) atua como uma "temperatura efetiva". Em sistemas físicos, flutuações térmicas em potenciais com curvatura variável geram forças entrópicas que empurram o sistema para regiões de maior entropia (regiões mais "planas" ou de menor curvatura).
Experimentos Empíricos:
- Arquiteturas e Dados: Treinamento de Wide ResNet-16-4 e ResNet-20/110 nos conjuntos de dados CIFAR-10 e CIFAR-100.
- Caminhos de Mínima Energia (MEPs): Utilização do algoritmo AutoNEB (Draxler et al., 2018) para encontrar caminhos não lineares de baixa perda conectando mínimos distintos.
- Conectividade Linear: Aplicação da abordagem de Frankle et al. (2020), onde redes são treinadas compartilhando os primeiros $k$ epochs e depois divergem, analisando a conectividade linear entre os irmãos (siblings).
- Medidas de Curvatura: Cálculo do traço da Hessiana, do maior autovalor ( $\lambda_{max}$ ) e da decomposição em valores singulares (SVD) da matriz de Fisher para quantificar a curvatura ao longo dos caminhos.
- Dinâmica Projetada: Para isolar o efeito, os autores projetam as atualizações do SGD de volta para o segmento de linha mais próximo do MEP, forçando o modelo a permanecer no caminho e observando sua deriva.

3. Contribuições Principais

Descoberta de "Bumps" de Curvatura: Demonstram empiricamente que, embora a perda seja baixa e quase constante ao longo dos caminhos conectando mínimos, a curvatura aumenta sistematicamente à medida que se afasta das extremidades (os mínimos) em direção ao interior do caminho.
Barreiras Entrópicas: Argumentam que esse aumento de curvatura cria uma barreira entrópica. Mesmo sem barreiras energéticas (perda), a dinâmica estocástica é enviesada de volta para as extremidades (regiões mais planas) devido à interação com o ruído.
Confinamento Efetivo: Mostram que, apesar da conectividade energética, as forças entrópicas confinam efetivamente os modelos a regiões específicas do espaço de parâmetros, tornando a travessia de um mínimo para outro estatisticamente improvável.
Persistência Temporal: Evidenciam que as barreiras entrópicas persistem por mais tempo durante o treinamento do que as barreiras energéticas, desempenhando um papel crucial na localização final da solução.

4. Resultados Chave

Perfil de Curvatura vs. Perda: Ao longo dos MEPs, a perda pode até ser menor que nos extremos, mas a curvatura (medida pelo traço da Hessiana e $\lambda_{max}$ ) sobe drasticamente no meio do caminho.
Dinâmica de Relaxação: Quando modelos são inicializados no meio de um caminho de baixa perda e submetidos a SGD projetado:
- Eles sofrem uma deriva sistemática de volta para as extremidades (os mínimos mais planos).
- Em alguns casos, a força entrópica é forte o suficiente para empurrar o modelo contra o gradiente de perda (aumentando a perda para reduzir a curvatura).
Dependência do Ruído: A força dessa deriva aumenta com o "nível de temperatura" do sistema:
- Tamanho do Minibatch: Minibatches menores (mais ruído) aceleram a relaxação para as extremidades.
- Taxa de Aprendizado: Taxas de aprendizado maiores (mais ruído) também aceleram o efeito.
Otimizadores: O efeito é mais pronunciado em otimizadores adaptativos (como Adam) e com momento (SGD com Nesterov) em comparação ao SGD puro.
Conectividade Linear: Em experimentos de conectividade linear, observa-se que, à medida que o ponto de divisão ( $k$ ) aumenta, a instabilidade da perda diminui, mas a instabilidade da curvatura aumenta. Isso indica que, nas fases tardias do treinamento, as barreiras entrópicas (curvatura) tornam-se o fator dominante na seleção da bacia de atração, superando as barreiras energéticas.

5. Significado e Implicações

Revisão da Geometria da Paisagem de Perda: O trabalho refina a visão de que os mínimos formam um único vale contínuo. Em vez disso, propõe que esse vale é fragmentado por barreiras entrópicas invisíveis à perda, mas visíveis à curvatura.
Seleção de Mínimos e Generalização: Sugere que os mínimos que generalizam bem podem estar "protegidos" por barreiras entrópicas que repelem a dinâmica de otimização de regiões que levam ao overfitting (que podem ser energeticamente acessíveis, mas geometricamente "estreitas" ou de alta curvatura).
Averaging de Pesos (Weight Averaging): Técnicas como Stochastic Weight Averaging (SWA) podem estar combinando mínimos que, embora conectados energeticamente, são efetivamente desconectados dinamicamente devido a essas barreiras. Isso explica por que a solução média pode ter propriedades de generalização superiores, mas não é facilmente encontrada por uma única trajetória de otimização difusiva.
Fase Tardia do Treinamento: O trabalho destaca que a dinâmica tardia do treinamento não é apenas uma busca por menor perda, mas uma seleção de regiões de baixa curvatura guiada por forças entrópicas.

Em resumo, o artigo estabelece que a curvatura induzida por forças entrópicas é um mecanismo fundamental que governa tanto a conectividade quanto o confinamento em redes neurais, explicando por que a otimização estocástica não explora todo o espaço de soluções de baixa perda, mas sim se localiza em bacias específicas e generalizáveis.

Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks

A Analogia do Vale com "Colinas de Areia"

O Que os Cientistas Descobriram na Prática

Por que isso é importante?

Resumo em uma frase

Título: Confinamento Entrópico e Conectividade de Modos em Redes Neurais Superparametrizadas

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Implicações

Mais como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM