Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando encontrar uma saída em um labirinto gigante e complexo.

O Problema Antigo (O Modelo "Discreto"):
Antes, os modelos de Inteligência Artificial (como o ChatGPT) pensavam como alguém que escreve em um caderno, palavra por palavra. Se eles tivessem que explorar vários caminhos ao mesmo tempo no labirinto, precisavam escrever: "Vou tentar o caminho A... não, melhor o B... ah, e talvez o C...".
Isso é lento e caro. Pior: se o modelo escolhesse o "Caminho A" e escrevesse isso no papel, ele "esquecia" que os caminhos B e C ainda existiam. Ele tinha que apagar e começar de novo se errasse. Era como tentar resolver um quebra-cabeça jogando as peças fora se a primeira tentativa não funcionar.

A Solução Nova (O "Pensamento Contínuo"):
Os autores deste artigo (publicado na conferência ICLR 2026) estudaram uma nova técnica chamada Cadeia de Pensamento Contínuo (ou Continuous CoT).
Em vez de escrever palavras, o modelo pensa em um "espaço de sonhos" ou "nuvem de ideias". Imagine que, em vez de escolher um único caminho no labirinto, o modelo cria uma nuvem de luz que se espalha por todos os caminhos possíveis ao mesmo tempo.
Isso é chamado de Superposição. O modelo não precisa decidir "A ou B" imediatamente; ele mantém "A e B e C" vivos simultaneamente, explorando tudo em paralelo.

A Grande Pergunta:
Sabíamos que essa "nuvem de luz" funcionava muito bem (como provado em trabalhos anteriores), mas ninguém sabia como o modelo aprendia a fazer isso sozinho. Será que ele precisava de um professor dizendo: "Ei, mantenha todas as opções abertas"? Ou ele aprendia isso sozinho durante o treino?

A Descoberta (O Segredo do Treino):
O papel revela que o modelo aprende isso sozinho através de um mecanismo de equilíbrio, como um piloto automático que ajusta a sensibilidade do volante.

A Fase de Exploração (O "Pensamento"):
Durante o treino, o modelo aprende a expandir sua "nuvem de luz" passo a passo.
- Se a sensibilidade for muito baixa, a nuvem não se espalha. O modelo fica confuso e chuta aleatoriamente.
- Se a sensibilidade for muito alta, a nuvem colapsa em um único ponto forte. O modelo fica demais confiante em um único caminho e ignora os outros, mesmo que esteja errado.
- O Pulo do Gato: O modelo aprende a manter essa sensibilidade num nível perfeito e limitado. Nem muito fraco, nem muito forte. Isso permite que ele explore vários caminhos plausíveis ao mesmo tempo (a superposição) sem se perder.
A Fase de Decisão (A "Resposta"):
No final, quando precisa dar a resposta, o modelo olha para essa nuvem de luz que ele construiu. Como ele manteve todos os caminhos vivos e ponderados, ele consegue identificar qual deles leva à saída com muito mais precisão do que se tivesse tentado adivinhar um caminho de cada vez.

A Analogia do Detetive:

Método Antigo: Um detetive que investiga um crime. Ele escolhe um suspeito, investiga, se não achar nada, descarta o suspeito e começa do zero com o próximo. É lento e pode perder pistas importantes.
Método Novo (Superposição): Um detetive que usa uma câmera de visão noturna especial. Ele vê todos os suspeitos ao mesmo tempo, observando o que cada um faz. Ele não precisa escolher um para investigar agora; ele vê o padrão de todos. Quando a hora da decisão chega, ele sabe exatamente quem é o culpado porque acompanhou todos os movimentos simultaneamente.

Conclusão Simples:
Os autores provaram matematicamente e mostraram com experimentos que, ao treinar modelos com essa técnica de "pensamento contínuo", eles naturalmente aprendem a manter várias ideias vivas ao mesmo tempo. Eles não precisam ser ensinados a fazer isso; o processo de aprendizado (o gradiente) os força a encontrar o equilíbrio perfeito entre explorar todas as opções e focar nas melhores, criando uma "mente paralela" que é muito mais inteligente e eficiente para resolver problemas complexos.

Em resumo: O modelo aprendeu a não ter que escolher um caminho de cada vez, mas sim a caminhar por todos eles ao mesmo tempo, e isso o torna um gênio em resolver labirintos.

Each language version is independently generated for its own context, not a direct translation.

Título: Emergência de Superposição: Revelando as Dinâmicas de Treinamento da Cadeia de Pensamento Contínuo

1. Problema e Motivação

As Grandes Linguagens (LLMs) demonstraram capacidades notáveis de raciocínio quando equipadas com Chain-of-Thought (CoT), onde o modelo gera uma sequência de tokens discretos antes de responder. No entanto, o CoT tradicional enfrenta custos de inferência elevados e limitações de paralelismo, pois o modelo deve escolher um único caminho de raciocínio de cada vez.

Uma abordagem recente, a Cadeia de Pensamento Contínuo (Continuous CoT ou COCONUT), mantém o rastro de raciocínio em um espaço latente contínuo em vez de projetá-lo de volta para tokens discretos. Trabalhos anteriores (Zhu et al., 2025) mostraram teoricamente que o Continuous CoT permite o raciocínio por superposição: o modelo pode manter múltiplos traços de raciocínio plausíveis simultaneamente em paralelo, resolvendo problemas complexos como a alcançabilidade em grafos direcionados de forma eficiente.

A Lacuna: Embora a capacidade de superposição tenha sido demonstrada teoricamente através de uma construção manual de parâmetros, permanecia incerto se métodos de treinamento baseados em gradiente (como gradient descent) naturalmente aprenderiam essa construção complexa. O artigo busca responder: "Os métodos baseados em gradiente levam naturalmente a essa construção de superposição e podemos provar isso teoricamente?"

2. Metodologia

Os autores analisam as dinâmicas de treinamento de um transformador simplificado de duas camadas no problema de alcançabilidade em grafos direcionados. O estudo é dividido em duas fases principais:

A. Formulação do Problema

Tarefa: Dado um grafo direcionado $G$ , um nó raiz $r$ e dois nós candidatos ( $c_1, c_2$ ), determinar qual é alcançável a partir de $r$ .
Mecanismo: O modelo gera uma sequência de "pensamentos contínuos" $[t_1], \dots, [t_C]$ onde cada $[t_c]$ é uma representação vetorial que codifica o conjunto de nós alcançáveis em $c$ passos.
Suposição de Aprendizado: Utiliza-se curriculum learning, onde o modelo é treinado para gerar o próximo pensamento contínuo baseado nos anteriores, antes de prever a resposta final.

B. Análise Teórica das Dinâmicas

Os autores focam na evolução do logit de correspondência de índice ( $\mu$ ), uma quantidade que quantifica a força da capacidade de busca local do modelo.

Fase de Geração de Pensamento (Thought Generation):
- Analisam como o parâmetro de atenção $\mu$ evolui durante o treinamento.
- Comparam duas funções de perda:
  - COCONUT-BFS: Perda que incentiva a previsão de qualquer nó na fronteira de busca (lembra uma Busca em Largura - BFS).
  - COCONUT: Perda que incentiva a previsão de um caminho específico demonstrado (supervisão padrão de CoT).
- Resultado Teórico Chave: Sob a perda COCONUT, o logit $\mu$ cresce inicialmente e depois permanece limitado (bounded). Sob a perda COCONUT-BFS, $\mu$ diverge para o infinito.
Fase de Predição (Prediction):
- Analisam como o modelo usa o pensamento contínuo final para escolher entre os candidatos $c_1$ e $c_2$ .
- Demonstram que o modelo aprende a equilibrar dois sinais: o "resíduo" do pensamento anterior (nós explorados) e o "levantamento" dos nós candidatos.

3. Contribuições Principais

Prova da Emergência Natural da Superposição:
O trabalho prova teoricamente que, durante o treinamento com gradiente, o modelo aprende a manter múltiplos caminhos de raciocínio simultaneamente. Isso ocorre porque o logit de correspondência de índice ( $\mu$ ) se estabiliza em um valor finito e positivo.
Mecanismo de Equilíbrio Exploração vs. Exploração:
- Se $\mu$ fosse muito pequeno, o modelo não conseguiria distinguir nós vizinhos (falta de exploração).
- Se $\mu$ fosse infinito (como em alguns modelos de CoT discreto), o modelo se tornaria excessivamente confiante, descartando caminhos corretos prematuramente com base apenas em características locais (como grau de entrada).
- O Valor Limitado: Um $\mu$ limitado permite que o modelo explore múltiplos traços plausíveis atribuindo pesos comparáveis a eles, resultando em uma superposição suave que evita o colapso prematuro para um único caminho incorreto.
Análise de Generalização:
Demonstram que, uma vez que a superposição emerge nas fases iniciais, o modelo pode generalizar para grafos e comprimentos de caminho não vistos durante o treinamento, utilizando a mesma dinâmica de expansão de fronteira.
Validação Empírica:
Os resultados experimentais com modelos baseados em GPT-2 (2 camadas) validam a teoria, mostrando que os logits de atenção de fato saturam em um valor limitado durante o treinamento, ao contrário da divergência observada em cenários de CoT discreto.

4. Resultados Experimentais

Configuração: Treinamento de um transformador de 2 camadas (768 dimensões) em um subconjunto do dataset ProsQA (grafos direcionados).
Dinâmica dos Logits (Figura 3):
- Na fase de geração de pensamento, a diferença de logits entre arestas da fronteira e outras arestas cresce e satura (estabiliza) após ~125 épocas. Isso confirma a previsão teórica de que $\mu$ permanece limitado sob a perda COCONUT.
- Em contraste, ao usar a perda modificada (COCONUT-BFS), os logits continuam a crescer indefinidamente, confirmando a divergência teórica.
Generalização de Comprimento: O modelo treinado em etapas iniciais consegue rapidamente reutilizar o mecanismo de superposição para expandir a fronteira em etapas posteriores (c=3, c=4), mesmo sem treinamento explícito para esses comprimentos.
Fase de Predição (Figura 4): Os parâmetros que controlam o "resíduo" e o "levantamento" de candidatos crescem rapidamente e se estabilizam, permitindo que o nó alcançável tenha o maior logit com alta probabilidade.
Acurácia: O modelo alcançou 96.2% de precisão no conjunto de teste, demonstrando a eficácia prática da abordagem.

5. Significado e Impacto

Este trabalho é fundamental para a compreensão teórica de como e por que o raciocínio em espaço contínuo funciona em LLMs.

Mecanismo de Superposição: Explica que a superposição não é apenas uma propriedade de arquiteturas específicas, mas uma consequência natural da dinâmica de otimização quando o modelo é forçado a lidar com incerteza em um espaço contínuo.
Escalabilidade: Oferece insights para escalar métodos de raciocínio (como o COCONUT) de forma mais eficiente e confiável, sugerindo que o controle da magnitude dos logits é crucial para evitar o colapso prematuro de caminhos de raciocínio.
Ponte Teoria-Prática: Conecta a construção teórica de parâmetros (anteriormente apenas uma prova de existência) com a realidade do treinamento por gradiente, validando que os modelos modernos podem aprender mecanismos complexos de raciocínio paralelo sem supervisão explícita de todos os passos.

Em resumo, o artigo revela que a superposição emerge como uma estratégia ótima de equilíbrio entre exploração e exploração, aprendida naturalmente pelo gradiente, permitindo que LLMs realizem raciocínio paralelo implícito e resolvam problemas complexos de busca de forma robusta.

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Título: Emergência de Superposição: Revelando as Dinâmicas de Treinamento da Cadeia de Pensamento Contínuo

1. Problema e Motivação

2. Metodologia

A. Formulação do Problema

B. Análise Teórica das Dinâmicas

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models