Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

De Paradox van de "Meer Probeerders": Waarom meer pogingen je soms slechter maken

Stel je voor dat je een grote kok (het AI-model) hebt die probeert een heel moeilijk recept te koken. Soms lukt het in één keer, soms niet.

In de wereld van AI wordt vaak een maatstaf gebruikt die "Pass@k" heet. Dit betekent: "Laat de kok k keer proberen. Als hij maar één keer het juiste gerecht maakt, is hij geslaagd."

Pass@1: De kok moet het in één keer perfect doen.
Pass@10: De kok mag 10 keer proberen. Als hij er één goed maakt, telt het als een succes.

Natuurlijk denken onderzoekers: "Als we de kok trainen om te slagen bij 10 pogingen, wordt hij toch ook beter?"
Het paper van Barakat en collega's laat zien dat dit niet altijd waar is. Sterker nog: als je de kok traint om te slagen bij 10 pogingen, kan het zijn dat hij slechter wordt in het maken van het gerecht in één keer (Pass@1).

Waarom gebeurt dit? Het paper noemt dit "Prompt Interferentie" (of: recepten die elkaar dwarsbomen).

De Analogie: De Twee Soorten Recepten

Stel je voor dat je kok twee soorten recepten moet leren:

Eenvoudige salades (makkelijke vragen): Deze lukt de kok al bijna altijd in één keer.
Complexe soufflés (moeilijke vragen): Deze lukt de kok bijna nooit in één keer.

1. De "Gewone" Training (Pass@1)

Als je de kok traint om altijd in één keer te slagen, kijkt hij naar alle recepten. Hij ziet dat de salades al goed gaan, maar de soufflés niet. Hij past zijn techniek een beetje aan om de soufflés beter te maken, maar doet dit op een manier die de salades niet verpest. Hij zoekt een balans.

2. De "Meer Pogingen" Training (Pass@k)

Nu zeggen we: "Nee, we willen dat je bij 10 pogingen wint!"
De trainer (de AI-algoritme) kijkt dan naar de statistieken. Hij ziet dat de kok bij de salades al 99% kans van slagen heeft. Waarom zou hij daar nog tijd aan besteden?
De trainer zegt: "Focus op de soufflés! Die zijn het probleem. Als je de soufflés beter maakt, stijgt je totale score (Pass@10) enorm."

Dit is het gevaar: Om de soufflés (de moeilijke vragen) te verbeteren, moet de kok soms een heel andere techniek gebruiken dan voor de salades.

Misschien moet hij de oven temperatuur verhogen voor de soufflés.
Maar als hij de temperatuur verhoogt, verbrandt hij de salades.

In de wereld van AI noemen ze dit negatieve interferentie. De "moeilijke" vragen en de "makkelijke" vragen vragen om tegenstrijdige aanpassingen in het brein van de AI.

Het Verkeerslicht van de AI

Het paper gebruikt een mooi beeld om dit uit te leggen:

De AI is een auto die een weg rijdt.
Pass@1 is als een groen licht dat de auto in de richting stuurt die voor alle wegen (makkelijk én moeilijk) het beste is.
Pass@k is als een verkeersagent die alleen naar de moeilijkste wegen kijkt. Hij zegt: "Rijd harder in die richting!"

Het probleem is dat de richting die de moeilijkste weg nodig heeft, soms haaks staat op de richting die de makkelijke weg nodig heeft.

Als de AI luistert naar de Pass@k-instructie, draait hij de stuurwiel hard naar links om de moeilijke weg te pakken.
Maar door die draai, rijdt hij de makkelijke weg volledig op.

Het resultaat?

Zijn score voor "10 pogingen" (Pass@k) gaat omhoog (want hij pakt de moeilijke weg nu beter).
Maar zijn score voor "1 poging" (Pass@1) gaat naar beneden (want hij is de makkelijke weg kwijtgeraakt).

Waarom is dit belangrijk?

In de echte wereld willen we vaak dat een AI één keer het juiste antwoord geeft.

Tijd: Wachten op 10 pogingen duurt te lang.
Kosten: 10 pogingen kosten 10 keer zoveel geld.
Betrouwbaarheid: Soms is er geen "verificatie" (een controleur) die zegt of het antwoord goed is. Dan moet het antwoord in één keer goed zijn.

Als je een AI traint met de "Pass@k" methode, maak je hem misschien slimmer in het proberen, maar dommer in het direct goed doen. En dat is vaak precies wat we nodig hebben.

De Conclusie in Eén Zin

Het paper laat zien dat als je een AI traint om "op de lange termijn" te slagen door veel te proberen, je onbedoeld de AI kunt dwingen om de makkelijke taken te vergeten, omdat de aanpak voor moeilijke taken de aanpak voor makkelijke taken verpest.

De les: Soms is "meer proberen" niet hetzelfde als "beter worden". Je moet oppassen dat je niet de balans verliest tussen het oplossen van moeilijke problemen en het niet vergeten van de simpele dingen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In verifieerbare taken voor Large Language Models (LLM), zoals wiskundig redeneren en code-generatie, wordt Pass@k vaak gebruikt als prestatie-maatstaf. Deze metric definieert succes als minimaal één van de $k$ onafhankelijk gegenereerde oplossingen correct is. Recent werk heeft methoden ontwikkeld om de trainingsdoelstelling direct af te stemmen op Pass@k (inference-aware fine-tuning), wat leidt tot aanzienlijke verbeteringen in Pass@k-scores.

Echter, een terugkerend en riskant fenomeen is waargenomen: terwijl Pass@k verbetert, degradeert de Pass@1-score (de kans dat de eerste, enige poging correct is). Dit is operationeel kritiek omdat veel toepassingen beperkt zijn door latentie, kosten, of het ontbreken van betrouwbare verifiers voor elke prompt, waardoor een sterke single-shot prestatie noodzakelijk blijft. De vraag is: Waarom en wanneer leidt het optimaliseren van Pass@k tot een daling van Pass@1?

Methodologie en Theoretisch Kader

De auteurs analyseren dit probleem door de gradiënten van de Pass@k- en Pass@1-objectieven te vergelijken in de ruimte van de modelparameters.

Prompt Interference (Prompt Interferentie):
De auteurs introduceren het concept van prompt interference. Twee prompts $x$ en $x'$ interfereren negatief als een parameter-update die de succeskans van $x$ verhoogt, de succeskans van $x'$ juist verlaagt. Dit wordt gemeten via een similariteitskernel $\kappa_\theta(x, x') = \langle \nabla p_\theta(x), \nabla p_\theta(x') \rangle$ , waarbij een negatieve inproduct wijst op conflicterende gradiënten.
Implicit Prompt Reweighting:
De gradiënt van Pass@k wordt gegeven door:
$\nabla J_k(\theta) = \mathbb{E}_{x \sim D} [w_k(p_\theta(x)) \nabla p_\theta(x)]$
waarbij de weging $w_k(p) = k(1-p)^{k-1}$ is.
- Cruciaal inzicht: Deze weging geeft extreem veel gewicht aan prompts met een lage succeskans (moeilijke prompts) en negeert prompts met een hoge succeskans.
- Als deze "moeilijke" prompts per toeval ook negatief interfererend zijn (d.w.z. hun individuele gradiënt conflicteert met de gemiddelde Pass@1-gradiënt), dan versterkt de Pass@k-optimalisatie juist deze conflicterende richting.
Gradiëntconflict Karakterisering:
De auteurs bewijzen dat de inproduct van de Pass@k- en Pass@1-gradiënten negatief kan worden. Dit gebeurt wanneer de covariantie tussen de Pass@k-weights en de "agreement scores" (hoe goed een prompt de populatie-gradiënt helpt) negatief is en groot genoeg is om de positieve bijdrage te overwinnen.
- Ze tonen aan dat er een fase-overgang optreedt bij een bepaalde waarde van $k$ . Boven deze drempelwaarde $k^*$ worden de gradiënten scherp tegenstrijdig (een stompe hoek), wat leidt tot een daling van Pass@1 bij een stijging van Pass@k.

Belangrijkste Bijdragen

Concept van Prompt Interferentie: Een formele definitie van wanneer prompts elkaars succeskans negatief beïnvloeden via gedeelde modelparameters, gebaseerd op de inproduct van hun Pass@1-gradiënten.
Theoretische Karakterisering van Gradiëntconflict: Een afleiding die aantoont dat Pass@k-optimalisatie de populatie-gradiënt verschuift richting prompts met lage succeskans. Als deze prompts negatief interfereren, ontstaat er een conflict dat de Pass@1-gradiënt omkeert.
Voldoende Voorwaarden: De auteurs geven wiskundige voorwaarden (afhankelijk van $k$ , de verdeling van moeilijkheidsgraden en de mate van interferentie) waaronder Pass@1 gegarandeerd daalt terwijl Pass@k stijgt.
Empirische Validatie: Experimenten met state-of-the-art redeneringsmodellen (DeepSeek-R1-Distill-Llama-8B en Qwen-7B) op de MATH-dataset.

Resultaten

De experimenten bevestigen de theoretische voorspellingen op meerdere niveaus:

Scheiding van Agreement Scores: Er is een duidelijke scheiding tussen "makkelijke" prompts (positieve agreement scores) en "moeilijke" prompts (negatieve agreement scores).
Extreme Reweighting: Pass@k wegingen zijn extreem ongelijk. Moeilijke prompts (met lage Pass@1) krijgen wegingen die $10^{28}$ keer zo groot zijn als die van makkelijke prompts.
Gradiëntomkering: Door deze extreme wegingen verschuift de gewogen gemiddelde agreement score van positief naar negatief.
- Bij het Llama-8B model veranderde de inproduct van de gradiënten van $+2.80 \times 10^{-3}$ naar $-1.12 \times 10^{-3}$ .
- Bij het Qwen-7B model was de verschuiving zelfs dramatischer, van $+2.97 \times 10^{-2}$ naar $-2.74 \times 10^{-1}$ , wat resulteerde in een sterk negatieve inproduct (-181).
Daling van Pass@1: In simulaties met één stap van Pass@k-gradiëntascentie nam Pass@k toe, terwijl Pass@1 daalde, precies zoals de theorie voorspelde.

Significantie en Conclusie

Dit artikel biedt een fundamentele verklaring voor een veelvoorkomend maar slecht begrepen probleem in LLM-post-training. Het toont aan dat het direct optimaliseren van Pass@k niet altijd veilig is voor single-shot prestaties.

Praktische Implicatie: Voor toepassingen waar latency of kosten een rol spelen (en dus alleen één poging mogelijk is), kan het gebruik van Pass@k als trainingsdoel de betrouwbaarheid van het systeem ondermijnen.
Toekomstig Onderzoek: De auteurs suggereren dat toekomstige methoden rekening moeten houden met "prompt interference" en mogelijk technieken moeten gebruiken (zoals "gradient surgery") om conflicterende gradiënten te mitigeren, of alternatieve doelstellingen moeten ontwikkelen die zowel Pass@k als Pass@1 in balans houden zonder de negatieve interferentie te versterken.

Kortom, het papier waarschuwt dat het "meerdere pogingen"-paradigma van Pass@k een valkuil kan zijn voor de single-shot prestatie, tenzij de onderliggende structuur van de prompt-distributie en de gradiëntinterferentie zorgvuldig wordt beheerd.

Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

De Paradox van de "Meer Probeerders": Waarom meer pogingen je soms slechter maken

De Analogie: De Twee Soorten Recepten

1. De "Gewone" Training (Pass@1)

2. De "Meer Pogingen" Training (Pass@k)

Het Verkeerslicht van de AI

Waarom is dit belangrijk?

De Conclusie in Eén Zin

Probleemstelling

Methodologie en Theoretisch Kader

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks