UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

O artigo apresenta o UpSkill, um método de treinamento que adapta o aprendizado de habilidades baseado em informação mútua ao otimizador GRPO para aumentar a diversidade de respostas e melhorar as métricas pass@k em modelos de linguagem grandes, sem comprometer a precisão de tentativa única.

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (uma Inteligência Artificial) que é muito bom em resolver problemas de matemática. Se você pedir a ele uma solução, ele geralmente acerta. Mas, e se você pedir para ele tentar resolver o mesmo problema cinco vezes seguidas?

O problema é que, se você pedir isso para a maioria das IAs hoje, elas vão te dar cinco respostas quase idênticas. É como se você tivesse cinco amigos tentando adivinhar a senha do Wi-Fi, mas todos eles estivessem usando exatamente a mesma lógica e, se um errar, os outros cinco também vão errar da mesma maneira. Isso é desperdício de tempo e esforço.

O artigo que você enviou apresenta uma nova técnica chamada UpSkill. Vamos explicar como ela funciona usando uma analogia simples: O Restaurante de Estratégias.

O Problema: O Restaurante "Sem Variedade"

Atualmente, quando treinamos IAs para acertar respostas (como em provas de matemática), nós as recompensamos apenas quando elas acertam. Com o tempo, a IA aprende que a única coisa que importa é o "prato perfeito". Então, ela para de experimentar sabores novos e começa a fazer o mesmo prato, da mesma maneira, todas as vezes.

  • Resultado: Se o prato estiver levemente estragado (uma pequena falha no raciocínio), a IA vai servir esse mesmo prato estragado 10 vezes seguidas. Você não ganha nada tentando de novo.

A Solução: O Chef com "Cartas de Estratégia" (UpSkill)

Os autores do UpSkill tiveram uma ideia brilhante: e se, em vez de pedir apenas "uma resposta", nós pedíssemos à IA que usasse diferentes "modos" ou "estratégias" para pensar?

Imagine que a IA agora tem um menu com 5 cartas mágicas (chamadas de variáveis latentes ou "z").

  • Carta 1: "Resolva isso como um matemático rigoroso, passo a passo."
  • Carta 2: "Resolva isso desenhando um gráfico mental."
  • Carta 3: "Resolva isso tentando chutar e corrigindo."
  • Carta 4: "Resolva isso usando uma analogia com culinária."
  • Carta 5: "Resolva isso de trás para frente."

O segredo do UpSkill é ensinar a IA a gostar de usar essas cartas diferentes. Eles criaram uma regra de recompensa (chamada de "Recompensa de Informação Mútua") que diz:

"Ei, IA! Se você usar a Carta 1 e der uma resposta, e depois usar a Carta 2 e der uma resposta totalmente diferente, você ganha pontos extras! Mas se você usar a Carta 1 e a Carta 2 e der a mesma resposta, você não ganha nada."

Como isso funciona na prática?

  1. Treinamento: A IA aprende que para ganhar pontos, ela precisa ser criativa e variar sua abordagem. Ela descobre que a Carta 1 funciona bem para um tipo de problema, e a Carta 3 funciona melhor para outro.
  2. O Teste: Quando você quer resolver um problema difícil, você pede para a IA tentar 5 vezes, cada uma com uma carta diferente.
  3. O Resultado: Em vez de 5 respostas iguais, você recebe 5 caminhos de raciocínio diferentes.
    • Se a IA errar na abordagem "Matemática Rigorosa", ela pode acertar na abordagem "Desenho Mental".
    • Isso aumenta drasticamente a chance de que pelo menos uma das 5 tentativas seja correta.

A Analogia da Caça ao Tesouro

Pense em procurar um tesouro enterrado em uma floresta:

  • IA Antiga: Você envia 5 exploradores, mas todos seguem o mesmo mapa. Se o mapa estiver errado, todos se perdem juntos.
  • IA com UpSkill: Você envia 5 exploradores, mas dá a cada um um mapa diferente (um vai pelo norte, outro pelo sul, outro pelo rio, etc.). Mesmo que 4 se percam, é muito provável que o quinto encontre o tesouro porque ele estava explorando um lugar que os outros não estavam.

O Que os Resultados Mostram?

Os autores testaram isso em modelos famosos (como Llama e Qwen) com problemas de matemática do ensino fundamental.

  • Sem UpSkill: A IA melhora um pouco em acertar na primeira tentativa, mas se você pedir 5 tentativas, a chance de sucesso não aumenta muito porque as respostas são repetitivas.
  • Com UpSkill: A chance de acertar em 5 tentativas (pass@5) aumentou significativamente (cerca de 3% a 10% a mais), sem piorar a chance de acertar na primeira tentativa.

Resumo em uma frase

O UpSkill ensina a Inteligência Artificial a não ser "teimosa" e a tentar resolver problemas de várias maneiras diferentes ao mesmo tempo, garantindo que, se uma estratégia falhar, outra provavelmente vai funcionar, aumentando muito a chance de sucesso em tarefas complexas.

É como transformar um time de jogadores que todos jogam no mesmo estilo em um time diversificado, onde cada um tem uma habilidade única, tornando o time muito mais difícil de ser derrotado.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →