A Grande Pergunta: Nós Ensinamos o Modelo, ou Apenas o Acordamos?

Imagine que você tem um músico muito talentoso, mas um pouco confuso (o modelo de IA), que praticou por anos por conta própria (pré-treinamento). Agora, você quer ensinar-lhe uma nova música.

Há um grande debate no mundo da IA sobre como nós os ensinamos.

Método A (SFT): Você toca para eles uma gravação de uma performance perfeita e diz: "Copie isso exatamente."
Método B (RL): Você os deixa tocar e, toda vez que eles acertam uma nota boa, você dá um prêmio. Toda vez que erram uma nota, você não dá.

A crença comum é: Método A apenas os faz imitar o que já sabem (Imitação), enquanto Método B os ajuda a descobrir coisas novas e incríveis que nunca souberam que podiam fazer (Descoberta).

Os autores deste artigo dizem: "Pare. Essa distinção é muito simples."

Eles argumentam que a verdadeira questão não é como você ensina (copiar vs. recompensas), mas o que você está realmente ensinando. Você apenas ajudou o músico a tocar uma música que ele já era capaz de tocar, mas que continuava estragando? Ou você realmente deu a ele a habilidade de tocar uma música que fisicamente não conseguia tocar antes?

Eles chamam essas duas coisas de:

Elicitação de Capacidade: Acordar uma habilidade que já estava lá, mas dormindo.
Criação de Capacidade: Dar ao músico uma habilidade totalmente nova que ele não tinha.

A Analogia do "Paisagem de Energia"

Para explicar isso, os autores usam um conceito da física chamado Energia Livre. Imagine que a mente do músico é uma paisagem montanhosa.

Os Vales (Bacias): São as músicas fáceis que o músico toca naturalmente. São profundas, confortáveis e fáceis de cair nelas.
As Colinas (Caudas): São músicas que o músico poderia tocar, mas estão muito altas. Requerem muito esforço (ou muitas tentativas) para chegar lá.
As Paredes (Barreiras): São músicas separadas por um muro massivo e intransponível. O músico não pode alcançá-las apenas andando; ele precisa de uma escada ou de uma ponte.
O Outro Lado do Mundo (Não Suportado): São músicas que simplesmente não existem no universo do músico ainda.

Como o Treinamento Funciona Neste Mapa

Tanto "Copiar" (SFT) quanto "Recompensas" (RL) funcionam inclinando a paisagem.

Se você der uma recompensa por uma música em um Vale, o vale fica mais profundo. O músico toca essa música com mais frequência.
Se você der uma recompensa por uma música em uma Colina, a colina ganha uma rampa. O músico agora pode subir até aquela música mais facilmente.

O Ponto Crucial:
Se a música já estava em um Vale ou em uma Colina, você não criou uma nova habilidade. Apenas tornou uma habilidade existente mais confiável. Isso é Elicitação.

Se a música estava atrás de uma Parede, e seu método de treinamento de alguma forma construiu uma ponte ou uma escada para chegar lá, então você criou uma nova habilidade. Isso é Criação.

As Quatro Zonas de Aprendizado

O artigo divide o pós-treinamento em quatro cenários específicos baseados neste mapa:

1. A "Zona Segura" (Elicitação Coberta por Demonstração)

O Cenário: O músico já conhece a música perfeitamente, mas às vezes esquece a letra. Você mostra a partitura (demonstrações).
O Resultado: Ele para de esquecer. Ele não aprendeu uma nova música; apenas estabilizou uma antiga.
A Lição: Se você usar cópia ou recompensas, se a resposta já fosse fácil de encontrar, você está apenas polindo uma pedra bruta, não criando uma nova.

2. A "Joia Escondida" (Reponderação de Caudas)

O Cenário: O músico conhece um solo de jazz complexo, mas só o toca uma vez em um milhão de tentativas. Está escondido nas "Colinas".
O Resultado: Você usa um sistema de recompensas para dizer: "Uau, aquele solo de jazz foi ótimo!" De repente, ele começa a tocar o tempo todo.
A Lição: Parece mágico porque o desempenho saltou. Mas o músico poderia ter tocado o tempo todo; ele apenas precisou de um empurrão para encontrá-lo. Isso ainda é Elicitação, não criação.

3. O "Construtor de Pontes" (Descoberta de Travessia de Barreiras)

O Cenário: O músico precisa tocar uma música que exige uma sequência de passos que ele nunca deu juntos. Está atrás de um muro.
O Resultado: Você não dá apenas uma recompensa no final. Você dá recompensas por etapas ao longo do caminho, ou permite que ele use uma ferramenta (como uma escada) para cruzar o vão.
A Lição: Isso é Criação de Capacidade. O treinamento não apenas inclinou a colina; mudou o terreno para que o músico pudesse alcançar um lugar de onde estava anteriormente bloqueado.

4. A "Zona Impossível" (Regimes Não Suportados)

O Cenário: Você pede ao músico para tocar uma música que requer um violino, mas ele só tem um violão.
O Resultado: Nenhuma quantidade de cópia ou recompensa ajudará. A "energia" necessária para tocar aquela música é infinita.
A Lição: Você não pode "criar" uma capacidade aqui apenas com treinamento. Você precisa de novas informações, um novo instrumento ou um modelo completamente diferente.

Por Que Isso Importa

O artigo argumenta que muitas vezes estamos confusos porque olhamos para o método (SFT vs. RL) em vez do mecanismo.

Mito: "RL é mágico porque cria novas habilidades."
Realidade: RL só cria novas habilidades se for combinado com ferramentas, busca ou interação que ajudem o modelo a atravessar "paredes". Se RL for apenas recompensar o modelo por coisas que ele já poderia fazer, é apenas Elicitação.
Mito: "SFT é fraco porque apenas copia."
Realidade: Se os dados de "cópia" vierem de uma fonte superinteligente (como um mecanismo de busca ou uma IA mais forte), o SFT pode ensinar coisas que o modelo nunca soube, atuando efetivamente como Criação.

A Conclusão

Quando vemos uma IA melhorar, não devemos apenas perguntar: "Eles usaram Aprendizado por Reforço?"

Devemos perguntar: "Eles apenas fizeram a IA melhor em coisas que ela já poderia fazer, ou realmente deram à IA a capacidade de fazer algo que ela não conseguia antes?"

O artigo sugere que, na maioria das vezes, estamos apenas acordando habilidades que já estavam lá (Elicitação), e precisamos ter muito cuidado antes de afirmar que realmente inventamos novas capacidades (Criação).

Resumo Técnico: Distinguir a Elaboração de Capacidades da Criação de Capacidades no Pós-Treinamento

1. Declaração do Problema

O discurso predominante no pós-treinamento de modelos de linguagem grandes (LLM) frequentemente enquadra a distinção entre Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL) como uma dicotomia entre imitação (SFT) e descoberta (RL). Este artigo argumenta que essa distinção é muito grosseira e obscurece o mecanismo fundamental de como o pós-treinamento altera o comportamento do modelo.

O problema central é determinar se um procedimento de pós-treinamento:

Elicita capacidades: Aumenta a probabilidade de comportamentos que o modelo base pré-treinado já poderia produzir, mas o fazia de forma não confiável.
Cria capacidades: Expande o conjunto de comportamentos que o modelo pode alcançar praticamente, permitindo resultados que anteriormente eram inacessíveis.

Os autores sustentam que rotular um método como "SFT" ou "RL" não determina seu mecanismo de capacidade. Em vez disso, o mecanismo depende da fonte dos sinais de treinamento (demonstrações versus recompensas), da geração de comportamentos candidatos e de se o processo expande o suporte acessível do modelo.

2. Metodologia e Estrutura Teórica

2.1 Perspectiva da Energia Livre

Os autores formalizam o pós-treinamento usando um quadro de energia livre, traçando uma analogia com a física estatística ($F = E - TS$). Eles interpretam os objetivos de pós-treinamento como a minimização de uma energia livre efetiva:
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
Onde:

$p_0(y|x)$ é a distribuição de referência pré-treinada.
$q(y|x)$ é a distribuição pós-treinada.
$E(x, y)$ é a energia efetiva derivada de sinais externos.
$\beta$ atua como um inverso da temperatura, controlando o compromisso entre explorar comportamentos preferidos e manter a diversidade (restrição KL).

Principais Insights Teóricos:

SFT como Energia: O SFT minimiza o log-verossimilhança negativo em demonstrações. Isso é equivalente a definir uma energia efetiva $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ . Se um comportamento está na distribuição de demonstrações, mas tem probabilidade zero no modelo base ( $p_0 \to 0$ ), a energia torna-se singular, quebrando a interpretação de reponderação local.
RL como Energia: O RL maximiza recompensas sujeitas a uma restrição KL. Isso corresponde a $E_{RL}(x, y) = -R(x, y)$ . A distribuição ótima é uma reponderação de Boltzmann da referência: $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
Reponderação Local: Quando as atualizações permanecem próximas ao modelo de referência (restrição KL forte), o efeito primário é a reponderação local da distribuição existente, e não a criação de novos comportamentos.

2.2 Suporte Acessível

Para operacionalizar a distinção entre eliciação e criação, o artigo introduz o suporte acessível: o conjunto de comportamentos que um modelo pode produzir praticamente sob orçamentos finitos de amostragem, otimização e divergência. Este conceito vai além do suporte matemático estrito (probabilidade não nula) para a alcançabilidade prática.

Os autores categorizam a paisagem comportamental em quatro regimes com base na relação entre o comportamento alvo e o suporte acessível do modelo base:

Elicitação Coberta por Demonstração: O comportamento alvo reside em uma "bacia" de alta probabilidade do modelo base e é coberto por demonstrações. O pós-treinamento estabiliza esse comportamento existente.
Reponderação de Cauda: O comportamento alvo reside na "cauda" da distribuição do modelo base (raro sob decodificação gananciosa, mas alcançável sob orçamentos de amostragem maiores, como best-of-N). O pós-treinamento amplifica esses comportamentos raros, mas alcançáveis.
Descoberta de Travessia de Barreira: O comportamento alvo está separado das saídas típicas do modelo base por "barreiras" (sequências de passos intermediários de baixa probabilidade). Alcançá-los requer alterar o processo de geração de trajetórias (por exemplo, via busca, uso de ferramentas ou supervisão de processo), e não apenas reponderação.
Regimes Não Suportados: O comportamento alvo está fora do suporte do modelo base ( $p_0(y|x) = 0$ ). A energia efetiva torna-se divergente. O pós-treinamento não pode criar essas capacidades sem novas informações, ferramentas ou alterações arquitetônicas.

3. Principais Contribuições

Reenquadramento do Debate SFT vs. RL: O artigo desloca o foco dos rótulos algorítmicos (SFT/RL) para o mecanismo de mudança de capacidade (eliciação versus criação). Argumenta-se que o SFT pode elicitar novos comportamentos se as demonstrações forem de alta qualidade (cobrindo a cauda), e que o RL pode ser mera reponderação se for restringido por uma penalidade KL forte.
Quadro Diagnóstico: Ao aplicar a perspectiva da energia livre, os autores fornecem uma ferramenta matemática para diagnosticar se os ganhos de desempenho derivam de reponderação local (dentro do suporte acessível) ou expansão de suporte (cruzamento de barreiras).
Os Quatro Regimes: O artigo estabelece uma taxonomia para os resultados do pós-treinamento, esclarecendo que a "criação de capacidades" não é uma propriedade binária de um método, mas uma propriedade da interação entre o sinal de treinamento, o processo de geração de candidatos e a alcançabilidade do modelo base.
Esclarecimento da "Criação": Os autores argumentam que a verdadeira criação de capacidades (Descoberta de Travessia de Barreira) requer mecanismos que alterem o processo de geração de trajetórias (por exemplo, busca, interação, uso de ferramentas), em vez de maximização isolada de recompensas.

4. Resultados e Alegações

O artigo não apresenta novos benchmarks empíricos, mas oferece uma análise diagnóstica de fenômenos existentes de pós-treinamento:

O SFT não é inerentemente fraco: Se as demonstrações contiverem trajetórias geradas por busca ou modelos mais fortes, o SFT pode elicitar comportamentos que o modelo base raramente produz. A limitação do SFT é a cobertura da distribuição de demonstrações, e não o próprio objetivo supervisionado.
O RL não é inerentemente criativo: Se o RL for aplicado com restrições KL fortes e sem mecanismos de busca, ele apenas repondera os comportamentos de cauda do modelo base. Grandes ganhos em benchmarks nesse regime refletem reponderação de cauda, e não a criação de novas capacidades.
O Limiar de Singularidade: A transição da eliciação para a criação é marcada por uma singularidade na formulação da energia livre. Quando $p_0(y|x) \to 0$ para um comportamento necessário, a visão de reponderação local se rompe, indicando que o comportamento está fora do suporte acessível.

5. Significado e Escopo

O artigo alega que distinguir entre eliciação de capacidades e criação de capacidades é essencial para uma pesquisa rigorosa de pós-treinamento.

Alegações Modestas: Os autores afirmam explicitamente que não alegam que SFT e RL são idênticos, nem que a dinâmica de otimização é irrelevante. Em vez disso, argumentam que a dinâmica de otimização deve ser interpretada em relação ao regime (por exemplo, em regimes de travessia de barreiras, a otimização deve ser acoplada a mudanças na geração de trajetórias).
Escopo: O quadro é diagnóstico. Ele esclarece que melhorias de desempenho, por si só, são evidências insuficientes de criação de capacidades. Para alegar criação, deve-se demonstrar que o método expandiu o espaço comportamental alcançável do modelo, frequentemente por meio de busca, interação ou novas informações, em vez de simplesmente reponderar probabilidades existentes.
Direção Futura: O artigo pede que trabalhos futuros distingam explicitamente entre esses regimes. Os pesquisadores devem relatar não apenas ganhos de desempenho, mas se esses ganhos refletem a estabilização de bacias, a amplificação de caudas ou o cruzamento de barreiras.

Em resumo, o artigo postula que a questão central no pós-treinamento não é "SFT ou RL?", mas "Este método repondera o que já é alcançável, ou expande o que é alcançável?"

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective