On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Este artigo propõe um framework de energia livre para distinguir entre elicitação de capacidades, que repondera comportamentos existentes dentro do suporte acessível de um modelo, e criação de capacidades, que expande esse suporte por meio de mecanismos como busca ou uso de ferramentas, argumentando que essa distinção é mais crítica do que a dicotomia tradicional entre SFT versus RL no pós-treinamento.

Autores originais: Yuhao Li, Shengchao Liu

Publicado 2026-05-12
📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Yuhao Li, Shengchao Liu

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

A Grande Pergunta: Nós Ensinamos o Modelo, ou Apenas o Acordamos?

Imagine que você tem um músico muito talentoso, mas um pouco confuso (o modelo de IA), que praticou por anos por conta própria (pré-treinamento). Agora, você quer ensinar-lhe uma nova música.

Há um grande debate no mundo da IA sobre como nós os ensinamos.

  • Método A (SFT): Você toca para eles uma gravação de uma performance perfeita e diz: "Copie isso exatamente."
  • Método B (RL): Você os deixa tocar e, toda vez que eles acertam uma nota boa, você dá um prêmio. Toda vez que erram uma nota, você não dá.

A crença comum é: Método A apenas os faz imitar o que já sabem (Imitação), enquanto Método B os ajuda a descobrir coisas novas e incríveis que nunca souberam que podiam fazer (Descoberta).

Os autores deste artigo dizem: "Pare. Essa distinção é muito simples."

Eles argumentam que a verdadeira questão não é como você ensina (copiar vs. recompensas), mas o que você está realmente ensinando. Você apenas ajudou o músico a tocar uma música que ele já era capaz de tocar, mas que continuava estragando? Ou você realmente deu a ele a habilidade de tocar uma música que fisicamente não conseguia tocar antes?

Eles chamam essas duas coisas de:

  1. Elicitação de Capacidade: Acordar uma habilidade que já estava lá, mas dormindo.
  2. Criação de Capacidade: Dar ao músico uma habilidade totalmente nova que ele não tinha.

A Analogia do "Paisagem de Energia"

Para explicar isso, os autores usam um conceito da física chamado Energia Livre. Imagine que a mente do músico é uma paisagem montanhosa.

  • Os Vales (Bacias): São as músicas fáceis que o músico toca naturalmente. São profundas, confortáveis e fáceis de cair nelas.
  • As Colinas (Caudas): São músicas que o músico poderia tocar, mas estão muito altas. Requerem muito esforço (ou muitas tentativas) para chegar lá.
  • As Paredes (Barreiras): São músicas separadas por um muro massivo e intransponível. O músico não pode alcançá-las apenas andando; ele precisa de uma escada ou de uma ponte.
  • O Outro Lado do Mundo (Não Suportado): São músicas que simplesmente não existem no universo do músico ainda.

Como o Treinamento Funciona Neste Mapa

Tanto "Copiar" (SFT) quanto "Recompensas" (RL) funcionam inclinando a paisagem.

  • Se você der uma recompensa por uma música em um Vale, o vale fica mais profundo. O músico toca essa música com mais frequência.
  • Se você der uma recompensa por uma música em uma Colina, a colina ganha uma rampa. O músico agora pode subir até aquela música mais facilmente.

O Ponto Crucial:
Se a música já estava em um Vale ou em uma Colina, você não criou uma nova habilidade. Apenas tornou uma habilidade existente mais confiável. Isso é Elicitação.

Se a música estava atrás de uma Parede, e seu método de treinamento de alguma forma construiu uma ponte ou uma escada para chegar lá, então você criou uma nova habilidade. Isso é Criação.


As Quatro Zonas de Aprendizado

O artigo divide o pós-treinamento em quatro cenários específicos baseados neste mapa:

1. A "Zona Segura" (Elicitação Coberta por Demonstração)

  • O Cenário: O músico já conhece a música perfeitamente, mas às vezes esquece a letra. Você mostra a partitura (demonstrações).
  • O Resultado: Ele para de esquecer. Ele não aprendeu uma nova música; apenas estabilizou uma antiga.
  • A Lição: Se você usar cópia ou recompensas, se a resposta já fosse fácil de encontrar, você está apenas polindo uma pedra bruta, não criando uma nova.

2. A "Joia Escondida" (Reponderação de Caudas)

  • O Cenário: O músico conhece um solo de jazz complexo, mas só o toca uma vez em um milhão de tentativas. Está escondido nas "Colinas".
  • O Resultado: Você usa um sistema de recompensas para dizer: "Uau, aquele solo de jazz foi ótimo!" De repente, ele começa a tocar o tempo todo.
  • A Lição: Parece mágico porque o desempenho saltou. Mas o músico poderia ter tocado o tempo todo; ele apenas precisou de um empurrão para encontrá-lo. Isso ainda é Elicitação, não criação.

3. O "Construtor de Pontes" (Descoberta de Travessia de Barreiras)

  • O Cenário: O músico precisa tocar uma música que exige uma sequência de passos que ele nunca deu juntos. Está atrás de um muro.
  • O Resultado: Você não dá apenas uma recompensa no final. Você dá recompensas por etapas ao longo do caminho, ou permite que ele use uma ferramenta (como uma escada) para cruzar o vão.
  • A Lição: Isso é Criação de Capacidade. O treinamento não apenas inclinou a colina; mudou o terreno para que o músico pudesse alcançar um lugar de onde estava anteriormente bloqueado.

4. A "Zona Impossível" (Regimes Não Suportados)

  • O Cenário: Você pede ao músico para tocar uma música que requer um violino, mas ele só tem um violão.
  • O Resultado: Nenhuma quantidade de cópia ou recompensa ajudará. A "energia" necessária para tocar aquela música é infinita.
  • A Lição: Você não pode "criar" uma capacidade aqui apenas com treinamento. Você precisa de novas informações, um novo instrumento ou um modelo completamente diferente.

Por Que Isso Importa

O artigo argumenta que muitas vezes estamos confusos porque olhamos para o método (SFT vs. RL) em vez do mecanismo.

  • Mito: "RL é mágico porque cria novas habilidades."

  • Realidade: RL só cria novas habilidades se for combinado com ferramentas, busca ou interação que ajudem o modelo a atravessar "paredes". Se RL for apenas recompensar o modelo por coisas que ele já poderia fazer, é apenas Elicitação.

  • Mito: "SFT é fraco porque apenas copia."

  • Realidade: Se os dados de "cópia" vierem de uma fonte superinteligente (como um mecanismo de busca ou uma IA mais forte), o SFT pode ensinar coisas que o modelo nunca soube, atuando efetivamente como Criação.

A Conclusão

Quando vemos uma IA melhorar, não devemos apenas perguntar: "Eles usaram Aprendizado por Reforço?"

Devemos perguntar: "Eles apenas fizeram a IA melhor em coisas que ela já poderia fazer, ou realmente deram à IA a capacidade de fazer algo que ela não conseguia antes?"

O artigo sugere que, na maioria das vezes, estamos apenas acordando habilidades que já estavam lá (Elicitação), e precisamos ter muito cuidado antes de afirmar que realmente inventamos novas capacidades (Criação).

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →