Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um quebra-cabeça muito difícil, como um problema de matemática avançada ou um enigma lógico.

A forma como os modelos de IA atuais funcionam (CoT Tradicional):
Pense no modelo atual como um explorador solitário. Ele dá um passo de cada vez. No primeiro passo, ele escolhe uma direção (por exemplo, "vou para a esquerda"). Uma vez que ele escolhe, ele não pode voltar atrás. Se ele escolher errado, ele fica preso naquele caminho e precisa começar tudo de novo do zero para tentar outra direção. Para ter certeza de encontrar a solução, ele precisa fazer o mesmo caminho várias vezes, como se estivesse enviando dez exploradores diferentes, um por um, até que um deles acerte. Isso é lento e gasta muita energia.

A nova ideia do papel (CoT2 - Cadeia de Pensamento Contínua):
Os autores deste artigo propõem uma revolução: em vez de um explorador solitário, o modelo agora é como um exército de fantasmas ou um raio laser que se divide.

Aqui está a analogia principal:

O "Super-Token" (A Mágica):
Em vez de o modelo escolher apenas uma palavra (um "token") de cada vez, ele cria uma mistura contínua. Imagine que você tem uma caixa de lápis de cor.
- Modelo Antigo: Ele escolhe apenas o lápis vermelho. O resto fica na caixa.
- Modelo Novo (CoT2): Ele mistura o vermelho, o azul e o amarelo em uma única cor nova, um "laranja-azulado". Essa cor única carrega a informação de todas as três possibilidades ao mesmo tempo.
Exploração Paralela (O Poder):
Com essa mistura, o modelo não precisa escolher um caminho de cada vez. Ele pode seguir todos os caminhos possíveis simultaneamente.
- Analogia: Imagine que você está em um cruzamento com 8 estradas. O modelo antigo precisa ir para a estrada 1, voltar, ir para a 2, voltar... até tentar todas. O modelo novo envia um "fantasma" para todas as 8 estradas ao mesmo tempo, mantendo todos os fantasmas vivos dentro de uma única "nuvem" de pensamento.
O Orçamento (O Limite):
O papel introduz um conceito chamado "orçamento" (Budget).
- Se o cérebro do modelo é pequeno (pouca memória), ele só consegue manter 2 fantasmas vivos.
- Se o cérebro é grande (mais memória), ele consegue manter 16 ou 64 fantasmas.
- O segredo é encontrar o equilíbrio: ter fantasmas suficientes para não errar, mas não tantos que o modelo fique confuso.
O Treinamento (O Mestre e o Aluno):
Para ensinar esse modelo a fazer essa mágica, os autores usam uma técnica especial. Em vez de dizer "você errou, tente de novo", eles mostram ao modelo o mapa de todas as rotas possíveis que um especialista faria.
- Analogia: É como se, em vez de deixar o aluno tentar adivinhar o caminho no escuro, o professor descesse um mapa transparente mostrando todos os caminhos possíveis ao mesmo tempo, e o aluno aprendesse a seguir esse mapa "suave" até chegar ao destino.
O Resultado (A Vitória):
Quando chega a hora de dar a resposta final, o modelo olha para todas as suas "fantasmas" que viajaram por todas as estradas. Ele vê qual caminho trouxe o melhor resultado e, só então, "colapsa" a nuvem de possibilidades em uma única resposta definitiva.

Por que isso é importante?

Velocidade: Em vez de tentar 10 vezes para acertar (como o modelo antigo), ele tenta tudo de uma vez só. É como ter 10 cérebros trabalhando em paralelo dentro de um só.
Precisão: Ele evita o erro de "travar" em um caminho ruim logo no início.
Eficiência: Para problemas complexos de lógica e matemática, essa abordagem mostrou-se muito mais inteligente e rápida do que os métodos atuais.

Resumo em uma frase:
O papel apresenta uma nova forma de fazer a IA pensar, onde ela não precisa escolher um caminho de cada vez, mas sim carregar todas as possibilidades em sua mente ao mesmo tempo, como se fosse um raio que se divide para explorar todos os caminhos do universo antes de escolher o vencedor.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os modelos de linguagem modernos (LLMs) geram raciocínios (Chain-of-Thought ou CoT) amostrando tokens discretos de um vocabulário finito de forma autoregressiva. Embora bem-sucedidos, essa abordagem apresenta limitações fundamentais:

Ineficiência de Informação: A amostragem discreta limita o modelo a emitir no máximo $\log_2(v)$ bits por token (onde $v$ é o tamanho do vocabulário), enquanto o vetor de embedding do token pode armazenar $O(d)$ bits (onde $d$ é a dimensão do embedding).
Comprometimento Precoce: A seleção de um único token a cada passo força o modelo a "comprometer-se" com um caminho de raciocínio específico, dificultando a exploração de alternativas e levando a erros cumulativos (fenômeno de "bola de neve").
Custo Computacional: Métodos existentes para mitigar isso, como Self-Consistency ou Best-of-N, exigem múltiplas passagens de inferência (amostragem repetida), aumentando o custo computacional.

O artigo propõe o CoT2 (Chain of Thought with Continuous Tokens), uma abordagem onde o modelo não seleciona um único token, mas sim uma superposição contínua de tokens (uma combinação convexa dos embeddings do vocabulário) para representar múltiplos caminhos de raciocínio simultaneamente.

2. Metodologia

A. Treinamento Supervisionado Contínuo (CSFT)

Os autores introduzem uma estratégia de supervisão onde o modelo é treinado para prever distribuições de probabilidade (vetores no simplex) em vez de tokens "hard" (one-hot).

Orçamento de Trajetória (Budget $B$ ): O método permite controlar o nível de paralelismo. O modelo é supervisionado pela distribuição empírica dos tokens visitados por um conjunto de $B$ trajetórias de "professores" (trajetórias corretas ou de alta qualidade).
Superposição de Estados: Em cada passo de raciocínio, o token de saída é a média dos embeddings das trajetórias selecionadas. Se $B=1$ , equivale ao CoT discreto; se $B$ é o total de trajetórias possíveis, o modelo explora todo o espaço de estados em paralelo.
Mecanismo: O modelo recebe como alvo a distribuição $\alpha^*_t$ (uma combinação convexa de embeddings) e é treinado para minimizar a divergência (ex: KL-divergência) entre sua previsão e esse alvo.

B. Estratégias de Amostragem e Inferência

Para a fase de inferência e otimização, são propostas duas estratégias principais:

CoT2 Base: Inferência determinística onde o token contínuo é formado diretamente pela saída do softmax ( $z_t = E^\top \alpha_t$ ). Isso permite rastrear todas as trajetórias possíveis em uma única passagem.
CoT2-MTS (Multi-Token Sampling): Uma abordagem estocástica onde, a cada passo, o modelo amostra $K$ tokens discretos do vocabulário e calcula a média de seus embeddings para formar o token contínuo. Isso permite controlar o nível de paralelismo e introduz estocasticidade para otimização por reforço.
Amostragem Dirichlet: Uma alternativa que amostra a distribuição de probabilidade diretamente do simplex usando uma distribuição Dirichlet, permitindo uma exploração mais suave.

C. Otimização por Reforço (RL)

O artigo aplica o GRPO (Group Relative Policy Optimization) no espaço de ação contínuo.

O objetivo é refinar a política do modelo para priorizar trajetórias relevantes, reduzindo a entropia das representações contínuas ao longo do tempo (transição de exploração para exploração).
A função de recompensa é esparsa (1 para resposta correta, 0 caso contrário).

3. Contribuições Teóricas Principais

Garantias de Paralelismo: O trabalho estabelece teoricamente que o CoT2 permite que o modelo rastreie múltiplos traços discretos em paralelo. É provado que um transformador de uma camada pode resolver problemas combinatórios complexos (como o problema da Soma Mínima Não-Negativa - MNNS) usando CoT2, desde que a dimensão do embedding seja suficiente para armazenar as superposições.
Complexidade de Amostragem: Os autores provam que o método CoT2-MTS com paralelismo $K$ é estatisticamente equivalente a agregar as saídas de $K$ trajetórias de CoT discreto independentes, mas com uma complexidade de amostragem reduzida. Especificamente, para atingir uma precisão $\epsilon$ , o CoT2-MTS requer $O(K^{-1}\epsilon^{-2})$ amostras, enquanto o CoT discreto requer $O(\epsilon^{-2})$ . Isso formaliza que o CoT2 com orçamento $K$ é tão expressivo quanto o Self-Consistency com $K$ traços, mas em uma única passagem.
Trade-off Dimensão-Orçamento: É estabelecido um limite de informação (information-packing bound) que relaciona a dimensão do embedding ( $d$ ) com o número de trajetórias superpostas ( $B$ ). Para decodificar robustamente $B$ estados, é necessária uma dimensão $d = \Omega(B \log(v/B))$ .

4. Resultados Experimentais

Os experimentos foram realizados em tarefas que exigem busca e raciocínio lógico: MNNS (Soma Mínima Não-Negativa), ProntoQA e ProsQA.

Desempenho Superior: O modelo CoT2 treinado com CSFT (com orçamento total $B=|T|$ $B = ∣ T ∣$ ) superou consistentemente o CoT discreto, o modelo no-CoT e a abordagem COCONUT (que usa estados latentes contínuos de forma diferente).
- No MNNS, o CoT2 alcançou ~98.9% de precisão, enquanto o CoT discreto atingiu ~84.9%.
Eficiência de Amostragem (Pass@k): O CoT2 atingiu o desempenho de "uma única tentativa" (single-shot) que o CoT discreto só conseguia após múltiplas tentativas (Pass@k). Isso confirma a capacidade de exploração paralela em uma única passagem.
Trade-off Dimensão vs. Orçamento: Os resultados mostram que, para dimensões de embedding pequenas, um orçamento intermediário ( $B=8$ ) é ideal. Para dimensões maiores ( $d=32$ ), o orçamento máximo ( $B=16$ ) atinge o desempenho máximo, validando a teoria de capacidade de empacotamento de informação.
Otimização por Reforço (GRPO): A aplicação de GRPO com CoT2-MTS melhorou ainda mais a precisão em relação ao treinamento supervisionado (SFT) apenas. Curiosamente, o CoT2 já incorporava uma exploração implícita via CSFT, então o ganho do RL foi mais modesto nele do que no CoT discreto, mas ainda positivo.
Redução de Entropia: A análise de entropia mostrou que, durante o treinamento com RL, a entropia dos tokens intermediários diminui, indicando que o modelo aprende a comprometer-se com menos opções à medida que se aproxima da resposta final, mantendo a diversidade apenas nos passos iniciais.

5. Significado e Conclusão

O artigo demonstra que a raciocínio contínuo não é apenas uma alternativa viável, mas superior para tarefas que exigem exploração de espaço de estados.

Paralelismo Eficiente: O CoT2 permite que modelos de linguagem realizem uma busca paralela (semelhante a Tree of Thoughts ou Self-Consistency) dentro de uma única cadeia de raciocínio, economizando recursos computacionais de inferência.
Ponte entre Discreto e Contínuo: O trabalho oferece uma estrutura teórica e prática para transicionar de modelos puramente discretos para modelos que utilizam o espaço contínuo de embeddings para "pensar" antes de "falar".
Escalabilidade: A descoberta de que a dimensão do embedding é o fator limitante para o paralelismo oferece diretrizes claras para o design de arquiteturas futuras.

Em resumo, o CoT2 transforma a limitação da amostragem discreta em uma vantagem, permitindo que o modelo mantenha múltiplas hipóteses ativas simultaneamente, resultando em maior precisão e eficiência em tarefas de raciocínio complexo.

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

1. Problema e Motivação

2. Metodologia

A. Treinamento Supervisionado Contínuo (CSFT)

B. Estratégias de Amostragem e Inferência

C. Otimização por Reforço (RL)

3. Contribuições Teóricas Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies