Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um aluno muito inteligente (uma Inteligência Artificial) para passar em um exame difícil.

Até agora, a maneira padrão de medir o sucesso desse aluno era: "Ele acertou a resposta na primeira tentativa?" (Isso é o Pass@1). Se ele acertou na primeira vez, ótimo. Se errou, ele falhou.

Mas, recentemente, os pesquisadores descobriram uma nova estratégia: "E se dermos ao aluno 10 chances de responder a mesma pergunta? Se ele acertar em qualquer uma das 10 vezes, ele passa." (Isso é o Pass@k, onde k é o número de tentativas).

A lógica parecia perfeita: "Se ele tem 10 chances, a probabilidade de acertar aumenta muito!" E de fato, quando treinamos a IA para maximizar esse "Pass@10", ela começa a acertar muito mais vezes quando tem 10 tentativas.

O Problema (A Grande Surpresa):
O artigo que você pediu para explicar revela um efeito colateral estranho e perigoso: Ao treinar a IA para ser excelente em ter 10 tentativas, ela começa a ficar pior em acertar na primeira tentativa.

Parece contra-intuitivo, não é? Como treinar para ter mais chances pode fazer você perder a habilidade de acertar de cara?

A Analogia do "Professor de Trânsito"

Para entender o porquê, vamos usar uma analogia simples:

Imagine que você é um professor de direção e tem uma turma com dois tipos de alunos:

Os "Fáceis": Já sabem dirigir, só precisam de um leve ajuste. Eles acertam a prova na primeira tentativa 90% das vezes.
Os "Difíceis": Ainda estão aprendendo. Eles só acertam a prova na primeira tentativa 10% das vezes.

O Treinamento Pass@1 (Foco na Primeira Tentativa):
O professor olha para a turma inteira e diz: "Vamos melhorar a média geral de quem acerta de primeira."

Ele foca em ajudar os alunos "Fáceis" a polirem seus detalhes (porque são muitos e já estão bons).
Ele também ajuda os "Difíceis", mas de forma equilibrada.
Resultado: A turma inteira fica boa em acertar de primeira.

O Treinamento Pass@10 (Foco em "Acertar em Alguma das 10 Tentativas"):
Agora, o professor muda a regra. Ele diz: "Não me importo se eles acertam de primeira. Quero que, se eu der 10 chances, pelo menos uma delas seja perfeita."

Aqui acontece a mágica (e o problema):

Para os alunos "Fáceis", eles já acertam 90% das vezes. Dar mais 9 chances não muda quase nada na matemática deles. O professor ignora eles, porque eles já estão "satisfeitos" com a nova regra.
Para os alunos "Difíceis", que só acertam 10% das vezes, a regra muda tudo! Se eles melhorarem um pouquinho, a chance de acertar pelo menos uma vez em 10 tentativas explode.
O que o professor faz? Ele foca toda a sua energia nos alunos "Difíceis". Ele grita, dá dicas específicas, muda a abordagem apenas para eles, porque é ali que o "Pass@10" vai subir mais rápido.

O Efeito Colateral (A Interferência Negativa):
O problema é que, na direção (e na IA), o que ajuda um aluno "Difícil" a entender um conceito complexo às vezes confunde o aluno "Fácil".

O professor, ao tentar forçar os "Difíceis" a aprenderem de um jeito novo, acaba ensinando uma técnica que é ótima para quem está começando, mas que desestabiliza quem já era bom.
Os alunos "Fáceis", que antes acertavam de primeira, agora começam a errar porque o professor mudou a forma de ensinar para agradar os "Difíceis".

Resultado Final:

Pass@10 (10 tentativas): Aumenta muito! Porque os "Difíceis" melhoraram e, com 10 chances, eles finalmente acertam.
Pass@1 (1 tentativa): Cai! Porque os "Fáceis" (que eram a maioria e acertavam de cara) foram prejudicados pela nova estratégia focada nos "Difíceis".

O Conceito Chave: "Interferência de Prompt"

Os autores chamam isso de Interferência de Prompt.

Imagine que cada pergunta (prompt) é um aluno.
Algumas perguntas são "amigas" (se você melhorar a resposta para uma, melhora para a outra).
Outras são "inimigas" (se você mudar a IA para acertar a pergunta difícil, ela esquece como responder a pergunta fácil).

O treinamento Pass@k é como um ímã que puxa a IA para focar nas perguntas mais difíceis (aquelas que ela quase nunca acerta). Se essas perguntas difíceis forem "inimigas" das perguntas fáceis (ou seja, o que ajuda a resolver uma atrapalha a outra), a IA começa a "esquecer" como resolver as fáceis.

Por que isso importa?

Na vida real, nem sempre podemos dar 10 tentativas para uma IA:

Custo e Tempo: Gerar 10 respostas custa dinheiro e demora. Muitas vezes, precisamos de uma resposta boa na primeira vez.
Confiabilidade: Se você está pedindo para uma IA controlar um carro autônomo ou um sistema médico, você não quer que ela tente 10 vezes até acertar. Você quer que ela acerte na primeira vez.

Resumo da Ópera

O artigo diz: "Cuidado ao treinar IAs para terem 'múltiplas tentativas'."
Se você forçar a IA a focar demais em acertar em qualquer uma das 10 tentativas, ela pode desenvolver um "vício" em tentar coisas aleatórias ou mudar sua lógica de forma que ela perca a habilidade de acertar de primeira.

É como treinar um atleta para ser o melhor em "tentar até cansar", e no processo, ele perde a técnica precisa necessária para fazer o movimento perfeito de primeira vez. O artigo mostra matematicamente quando e por que isso acontece, para que possamos criar métodos de treinamento que melhorem as múltiplas tentativas sem estragar a primeira.

Each language version is independently generated for its own context, not a direct translation.

Título: Por que a Otimização Pass@k Pode Degradar o Pass@1: Interferência de Prompts no Pós-treinamento de LLMs

1. Problema e Motivação

O métrico Pass@k é amplamente utilizado para avaliar modelos de linguagem (LLMs) em tarefas verificáveis (como geração de código e raciocínio matemático). Ele define sucesso se qualquer uma das $k$ amostras independentes geradas for correta. Recentemente, surgiram métodos de fine-tuning (ajuste fino) que otimizam diretamente o Pass@k, alinhando o objetivo de treinamento com a inferência de múltiplas tentativas.

No entanto, observa-se empiricamente um trade-off preocupante: enquanto o Pass@k melhora, o desempenho Pass@1 (probabilidade de sucesso na primeira tentativa) frequentemente se degrada. Isso é crítico porque, em muitas implantações reais, o Pass@1 é uma restrição operacional dura devido a:

Limitações de latência e custo (não é viável gerar múltiplas respostas).
Falta de verificadores confiáveis para todas as prompts.
A necessidade de um "fallback" (fallback) confiável de tiro único.

A questão central do artigo é: Quando e por que a otimização do Pass@k pode degradar o Pass@1?

2. Metodologia e Fundamentação Teórica

Os autores investigam a origem desse trade-off através de uma análise teórica dos gradientes de política e introduzem o conceito de Interferência de Prompt.

A. Otimização Pass@k e Reponderação Implícita

A função objetivo Pass@k é definida como $J_k(\theta) = \mathbb{E}_{x \sim D}[1 - (1 - p_\theta(x))^k]$ , onde $p_\theta(x)$ é a probabilidade de sucesso para uma prompt $x$ .
O gradiente de política para Pass@k é dado por:
$\nabla J_k(\theta) = \mathbb{E}_{x \sim D} [w_{k,\theta}(x) \nabla p_\theta(x)]$
Onde o peso $w_{k,\theta}(x) = k(1 - p_\theta(x))^{k-1}$ .
Observação Crucial: Este peso repondera as prompts, dando muito mais ênfase às prompts difíceis (baixa probabilidade de sucesso, $p_\theta(x) \approx 0$ ) e ignorando as prompts fáceis ( $p_\theta(x) \approx 1$ ).

B. Interferência de Prompt (Prompt Interference)

Os autores definem formalmente a interferência entre duas prompts $x$ e $x'$ baseada na similaridade de seus gradientes de Pass@1:

Interferência Positiva: Atualizar a política para melhorar $x$ também tende a melhorar $x'$ (produto interno dos gradientes > 0).
Interferência Negativa: Atualizar a política para melhorar $x$ tende a piorar $x'$ (produto interno dos gradientes < 0).

Isso ocorre porque os parâmetros do modelo são compartilhados; otimizar para um tipo de problema pode deslocar o modelo em uma direção que prejudica a performance em outro tipo de problema com representação similar, mas solução oposta.

C. Conflito de Gradientes

A tese central é que a otimização Pass@k pode criar um conflito de gradiente com o Pass@1.

O Pass@k repondera as prompts, amplificando o peso das prompts difíceis.
Se essas prompts difíceis forem negativamente interferentes (ou seja, seus gradientes individuais de Pass@1 apontam na direção oposta ao gradiente médio populacional de Pass@1), o gradiente total do Pass@k será dominado por essas direções conflitantes.
Matematicamente, o produto interno entre os gradientes populacionais $\langle \nabla J_k(\theta), \nabla J_1(\theta) \rangle$ pode se tornar negativo (ângulo obtuso).
Consequentemente, uma atualização de política na direção do gradiente Pass@k aumenta o Pass@k, mas diminui o Pass@1.

3. Contribuições Principais

Conceito de Interferência de Prompt: Introdução de um kernel de similaridade para definir matematicamente quando prompts interferem positiva ou negativamente entre si no contexto de pós-treinamento de LLMs.
Caracterização do Conflito de Gradientes: Derivação de uma expressão interpretável para o produto interno entre os gradientes de Pass@k e Pass@1. O artigo prova que o conflito ocorre quando a reponderação do Pass@k amplifica regiões de prompts com interferência negativa.
Condições Suficientes e Influência de $k$ : Estabelecimento de condições teóricas para o conflito. Mostra-se que existe um limiar $k^*$ : para valores de $k$ suficientemente grandes, o conflito de gradiente torna-se inevitável se houver uma massa significativa de prompts difíceis com interferência negativa.
Prova de Degradação do Pass@1: Demonstração teórica de que, sob condições de passo de aprendizado adequadas, uma atualização baseada no gradiente Pass@k pode simultaneamente aumentar o Pass@k e diminuir o Pass@1.
Validação Empírica: Experimentos em modelos de linguagem (DeepSeek-R1-Distill-Llama-8B e Qwen-7B) em tarefas de raciocínio matemático (dataset MATH) confirmando as previsões teóricas.

4. Resultados Experimentais

Os experimentos foram realizados no dataset MATH, filtrando prompts em "fáceis" (alta probabilidade de sucesso) e "difíceis" (baixa probabilidade).

Separação de Interferência: Os scores de acordo (agreement scores) mostraram que prompts fáceis têm interferência positiva, enquanto prompts difíceis têm interferência negativa (seus gradientes individuais se opõem ao gradiente médio).
Disparidade Extrema de Pesos: O mecanismo de reponderação do Pass@k cria uma disparidade de pesos da ordem de $10^{28}:1$ entre prompts difíceis e fáceis. O Pass@k ignora quase completamente as prompts fáceis.
Inversão do Alinhamento de Gradiente:
- O gradiente médio não ponderado (Pass@1) aponta para uma direção que melhora o desempenho geral.
- O gradiente ponderado pelo Pass@k (Pass@k) inverte essa direção, tornando-se negativamente alinhado com o Pass@1.
- Em um dos casos (Qwen-7B), o produto interno dos gradientes caiu de positivo para -181, indicando um conflito severo.
Degradação Observada: Ao realizar atualizações de gradiente baseadas no Pass@5, os autores observaram que o Pass@5 aumentou, enquanto o Pass@1 da população diminuiu consistentemente.

5. Significado e Conclusão

Este trabalho fornece a primeira caracterização teórica rigorosa de por que a otimização direta de métricas de múltiplas tentativas (Pass@k) pode ser prejudicial para a performance de tiro único (Pass@1).

Implicação Prática: Treinar modelos apenas para otimizar Pass@k é arriscado em cenários onde a latência ou o custo impedem a geração de múltiplas amostras. O modelo pode se tornar "especialista" em resolver problemas difíceis com múltiplas tentativas, mas perder a capacidade de resolver problemas fáceis ou médios na primeira tentativa.
Mecanismo Subjacente: O problema não é apenas a dificuldade das prompts, mas a interferência negativa entre subpopulações de prompts. A otimização Pass@k, ao focar agressivamente nas prompts difíceis, acaba "sacrificando" a performance nas prompts fáceis quando estas interferem negativamente com as difíceis.
Futuro: O artigo sugere que futuras metodologias de fine-tuning devem considerar a "cirurgia de gradiente" ou mecanismos de reponderação mais equilibrados que mitiguem a interferência negativa, preservando o Pass@1 enquanto buscam ganhos no Pass@k.

Em resumo, o artigo alerta que a otimização cega para métricas de inferência de múltiplas tentativas pode levar a modelos menos robustos para uso em produção (single-shot), devido a conflitos geométricos nos espaços de parâmetros induzidos pela reponderação de prompts difíceis.