Training Large Language Models To Reason In Parallel With Global Forking Tokens

O artigo propõe o método SSFT, que utiliza uma perda baseada em conjuntos para preservar modos de raciocínio únicos e gerar tokens de bifurcação globais, permitindo que o modelo GFPO subsequente supere abordagens existentes em tarefas complexas de matemática e geração de código.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da matemática (um Modelo de Linguagem Grande, ou LLM) que está tentando resolver um problema muito difícil.

O problema tradicional é o seguinte: quando o gênio começa a pensar, ele muitas vezes fica preso em um único caminho de raciocínio. Se esse caminho estiver errado, ele continua andando na direção errada até o fim, desperdiçando tempo e energia. Para tentar evitar isso, os pesquisadores costumam pedir ao gênio para pensar "mais rápido" ou "mais devagar" (ajustando a temperatura), mas isso é como tentar adivinhar qual caminho é o certo jogando dados: às vezes funciona, mas muitas vezes você perde a precisão em troca de tentar muitas coisas.

Este paper, chamado "Treinando Grandes Modelos de Linguagem a Raciocinar em Paralelo com Tokens de Garfo Global", propõe uma solução inteligente e elegante. Vamos usar uma analogia de cozinha e receitas para entender como funciona.

1. O Problema: A Cozinha Caótica

Imagine que você é o chefe de uma cozinha e precisa preparar um prato complexo. Você tem vários cozinheiros (o modelo) e várias receitas corretas (trilhas de raciocínio) que levam ao mesmo prato final.

  • O jeito antigo (SFT comum): Você pega todas as receitas corretas e joga na mesma panela, misturando tudo. O cozinheiro tenta aprender, mas acaba criando uma "sopa" confusa. Ele não sabe qual receita seguir, então ele faz um meio-termo que não é nem uma coisa, nem outra. O resultado é um prato medíocre.
  • O jeito do "Garfo" (Forking Tokens): Em vez de misturar tudo, você dá ao cozinheiro etiquetas especiais (os Tokens de Garfo Global). Imagine que você tem 6 etiquetas coloridas: "Pense como um Matemático Clássico", "Pense como um Lógico", "Pense como um Criativo", etc.

2. A Solução: O Sistema de Etiquetas Inteligentes (SSFT)

A grande inovação deste trabalho é ensinar o cozinheiro a associar automaticamente cada etiqueta a uma receita específica, sem que você precise dizer qual é qual a cada vez.

Eles criaram um método chamado SSFT (Ajuste Fino Supervisionado por Conjunto). Funciona assim:

  1. O Jogo de Emparelhamento: O modelo recebe um problema e várias soluções corretas (trilhas de raciocínio).
  2. O "Match" Perfeito: Em vez de forçar o modelo a aprender tudo ao mesmo tempo, o algoritmo faz um "jogo de emparelhamento" (como um casamento perfeito). Ele pergunta: "Qual etiqueta de pensamento (Garfo) combina melhor com qual solução correta?"
    • Se a "Etiqueta Azul" combina com a "Receita A", o modelo aprende isso.
    • Se a "Etiqueta Vermelha" combina com a "Receita B", o modelo aprende isso.
  3. O Resultado: Ao final do treinamento, o modelo não é mais uma "sopa". Ele se tornou um mestre que sabe exatamente qual "modo de pensamento" ativar dependendo da etiqueta que você der a ele.
    • Se você der a etiqueta <think 1>, ele ativa um modo de raciocínio profundo e lógico.
    • Se você der a etiqueta <think 2>, ele ativa um modo criativo e lateral.

3. Por que isso é melhor? (A Analogia do Garfo)

Imagine que o raciocínio é uma árvore. No começo, todas as ideias são iguais. Mas, em algum ponto, a árvore precisa se dividir (furar) para explorar caminhos diferentes.

  • Sem o método: O modelo tenta adivinhar onde deve "furar" a árvore enquanto está pensando. É difícil e muitas vezes ele erra o momento.
  • Com o método: Você segura a árvore e diz: "Neste ponto exato, use o Garfo Azul para ir para a esquerda, e o Garfo Vermelho para ir para a direita". O modelo aprende que esses "Garfos" (tokens) são os interruptores que ativam modos de pensamento distintos e precisos.

4. O Poder do "Garfo" (GFPO)

Depois de treinar o modelo com essas etiquetas, eles fazem um segundo passo chamado GFPO. É como se eles ensinassem o modelo a escolher sozinho qual etiqueta usar para um problema novo.

  • Se o problema é muito difícil, o modelo aprende a dizer: "Ah, esse precisa do Garfo Azul!" e ativa o modo de pensamento mais complexo automaticamente.

5. Os Resultados na Prática

Os autores testaram isso em matemática (como o AIME, uma olimpíada difícil) e em programação.

  • O que aconteceu? O modelo treinado com esse método conseguiu resolver problemas muito mais difíceis do que os modelos comuns.
  • A mágica: Quando você pede para o modelo pensar em paralelo (gerar 6 respostas ao mesmo tempo usando as 6 etiquetas diferentes), a chance de acertar a resposta correta dispara. É como ter 6 especialistas diferentes trabalhando no mesmo problema ao mesmo tempo, em vez de ter 6 cópias do mesmo especialista tentando adivinhar.

Resumo em uma frase

Em vez de pedir ao cérebro artificial para "adivinhar" como pensar de várias formas, os pesquisadores ensinaram o modelo a ter interruptores específicos (os Garfos Globais) que ativam modos de raciocínio diferentes e precisos, garantindo que ele explore todas as possibilidades corretas sem se confundir.

É como transformar um cozinheiro que mistura tudo em uma panela em uma equipe de especialistas, onde cada um sabe exatamente qual receita seguir quando você acende a luz certa na cozinha.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →