Entropy After for reasoning model early exiting

O artigo propõe o método Entropy After (EAT), uma técnica eficiente que monitora a entropia dos tokens de saída para detectar quando um modelo de raciocínio já atingiu a resposta correta e interromper o processo antecipadamente, reduzindo o consumo de tokens em 12% a 22% sem prejudicar a precisão.

Xi Wang, James McInerney, Lequn Wang, Nathan Kallus

Publicado 2026-04-09
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

`). O EAT olha para a próxima palavra que a IA poderia escrever logo após essa etiqueta.

  • No início (Incerteza): A IA está confusa. Ela poderia escrever "A resposta é X", "Talvez seja Y", "Espere, preciso verificar Z". Há muitas possibilidades. O "termômetro" (a entropia) está alto. A IA ainda não sabe o que vai dizer.
  • No meio (Raciocínio): A IA começa a chegar a uma conclusão. As opções de palavras diminuem. O termômetro começa a descer.
  • No fim (Certeza): A IA já decidiu a resposta. Ela só tem uma palavra em mente para continuar. O termômetro cai para o zero e estabiliza.

A mágica do EAT: Os pesquisadores descobriram que, assim que esse termômetro estabiliza (para de oscilar), a IA já tem a resposta correta. Não adianta continuar pensando!

3. Como funciona na prática?

O sistema monitora esse "termômetro" enquanto a IA pensa.

  • Se o termômetro ainda está tremendo (oscilando muito), a IA continua pensando.
  • Assim que o termômetro fica estável e baixo, o sistema diz: "Pare! Você já sabe a resposta. Vamos para a conclusão!"

Isso permite que a IA gaste tempo apenas onde é necessário. Perguntas fáceis são resolvidas em segundos; perguntas difíceis recebem o tempo que precisam.

4. Por que isso é genial? (O Truque do Espião)

A parte mais legal é que você não precisa ter acesso aos "cérebros" secretos da IA gigante (que pode ser um modelo de 70 bilhões de parâmetros e custar muito caro para rodar).

O EAT pode usar um modelo pequeno e barato (como um "espião" ou um "assistente") para monitorar a IA gigante.

  • Imagine que você tem um professor universitário (IA gigante) resolvendo um problema.
  • Você coloca um estudante de graduação (modelo pequeno) ao lado dele.
  • O estudante não resolve o problema, ele apenas observa o que o professor escreve e diz: "Ei, professor, você já parece muito confiante. Pode parar de revisar e dar a resposta!"
  • O estudante é tão rápido e barato que o professor nem percebe que está sendo monitorado, mas o sistema economiza uma fortuna em energia.

5. Os Resultados

Os testes mostraram que, usando o EAT:

  • A IA economizou entre 12% a 22% de processamento (tokens).
  • A precisão das respostas não caiu. Ela continuou tão inteligente quanto antes, apenas mais rápida e barata.
  • Funciona até em modelos "fechados" (como o Claude ou o GPT-4), onde você não pode ver os cálculos internos, apenas o texto que eles escrevem.

Resumo em uma frase

O EAT é como um semáforo inteligente para a inteligência artificial: ele avisa exatamente quando a IA já "entendeu a matéria" e pode parar de estudar para ir direto à prova, economizando tempo e dinheiro sem perder a nota.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →