Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wenn "Viel hilft viel", schadet es dem Einzelnen

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas chaotischen Schüler (das ist unser KI-Modell). Du willst, dass er Matheaufgaben löst.

Es gibt zwei Arten, seine Leistung zu messen:

Pass@1 (Der "Ein-Wurf"-Test): Der Schüler bekommt eine Aufgabe und hat nur einen Versuch. Wenn er sie richtig löst, ist er erfolgreich. Das ist wie eine echte Prüfung, bei der man keine Hilfe hat.
Pass@k (Der "Viel-Versuch"-Test): Der Schüler bekommt die gleiche Aufgabe und darf k-mal raten (z. B. 5 oder 10 Mal). Solange eine seiner 10 Antworten richtig ist, zählt es als Erfolg. Das ist wie ein Quiz, bei dem man so lange tippen darf, bis es passt.

Was die Forscher herausfanden

Bisher dachten viele: "Wenn wir den Schüler trainieren, damit er beim Viel-Versuch-Test (Pass@k) besser wird, wird er automatisch auch beim Ein-Wurf-Test (Pass@1) besser."

Aber das stimmt leider nicht. Die Studie zeigt etwas Überraschendes: Wenn man den Schüler speziell darauf trainiert, beim "Viel-Versuch"-Test zu gewinnen, kann er beim "Ein-Wurf"-Test schlechter werden.

Es ist, als würdest du einen Sportler trainieren, der 100-mal hintereinander einen Ball werfen darf, bis er ein Tor trifft. Er lernt, extrem viele verschiedene, verrückte Würfe zu probieren. Aber wenn er dann plötzlich nur einen Wurf hat, ist er vielleicht so verwirrt von all den verrückten Strategien, dass er den einfachen Wurf verpasst.

Warum passiert das? (Die "Störungs"-Theorie)

Die Forscher nennen das "Prompt-Interferenz" (Störung durch die Aufgaben). Hier ist die Analogie:

Stell dir vor, der Schüler lernt für zwei sehr unterschiedliche Arten von Aufgaben:

Leichte Aufgaben: "Was ist 2 + 2?" (Er kann das fast immer sofort).
Schwere Aufgaben: "Löse diese komplexe Integralgleichung." (Er scheitert oft).

Das Problem beim Training für Pass@k:
Um beim "Viel-Versuch"-Test besser zu werden, muss das Training den Schüler zwingen, sich auf die schweren Aufgaben zu konzentrieren, bei denen er oft scheitert. Denn bei den leichten Aufgaben ist er ja schon gut; da bringt mehr Probieren nichts.

Das Training sagt also: "Ignoriere die leichten Aufgaben! Wirf alle deine Energie darauf, die schweren Aufgaben zu knacken!"

Der Konflikt:
Hier kommt die "Störung" ins Spiel. Die Art und Weise, wie der Schüler lernt, die schweren Aufgaben zu lösen, ist oft genau das Gegenteil davon, wie man die leichten Aufgaben löst.

Um die schweren Aufgaben zu knacken, muss er vielleicht mutig und chaotisch raten.
Um die leichten Aufgaben sicher zu lösen, muss er ruhig und präzise sein.

Wenn das Training den Schüler nun übermäßig darauf trainiert, die schweren Aufgaben zu lösen (weil er dort beim Pass@k-Test am meisten "Punkte" holen kann), vergisst er die feinen Nuancen für die leichten Aufgaben. Er wird im "Viel-Versuch"-Test super, weil er endlich die schweren Rätselfälle knackt. Aber im "Ein-Wurf"-Test macht er bei den einfachen Aufgaben Fehler, weil er zu sehr auf das "Raten" für die schweren Aufgaben programmiert wurde.

Die Metapher: Der Architekt und der Maler

Stell dir vor, du hast einen Künstler, der sowohl Architekt (schwere, komplexe Aufgaben) als auch Maler (einfache, schnelle Aufgaben) sein soll.

Pass@1 will, dass er jedes Bild sofort perfekt malt.
Pass@k will, dass er irgendwann ein perfektes Gebäude entwirft, auch wenn er 100 Skizzen braucht.

Wenn du ihn nur trainierst, wie man 100 Skizzen für ein Gebäude macht (Pass@k), wird er vielleicht ein genialer Architekt. Aber wenn du ihn dann bittest, sofort ein schönes Bild zu malen (Pass@1), wird er vielleicht zögern, weil er immer noch nach den 100 Skizzen sucht. Seine "Architekt-Strategie" stört seine "Maler-Fähigkeit".

Was bedeutet das für die Zukunft?

Die Studie warnt uns: Wir können KI-Modelle nicht blind darauf trainieren, "vielfach zu probieren", wenn wir gleichzeitig wollen, dass sie in der echten Welt (wo wir oft nur einen Versuch haben) zuverlässig funktionieren.

Das Risiko: Wenn wir KI nur auf "Vielleicht klappt es ja beim 5. Versuch" optimieren, verlieren wir die Zuverlässigkeit für den ersten Versuch.
Die Lösung: Wir müssen neue Trainingsmethoden finden, die den Schüler lehren, sowohl die schweren Rätsel zu knacken als auch die einfachen Aufgaben sicher im ersten Wurf zu lösen, ohne dass sich die beiden Lernziele gegenseitig stören.

Zusammengefasst: Mehr Versuche beim Training führen nicht automatisch zu mehr Erfolg beim ersten Versuch. Manchmal macht das Training für das "Vielfach-Probieren" den Schüler sogar ungeschickter im "Einmal-Versuch".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

In vielen verifizierbaren Aufgaben für Large Language Models (LLMs), wie z. B. Code-Generierung oder mathematisches Reasoning, wird die Leistung häufig mit der Metrik Pass@k gemessen. Diese gibt die Wahrscheinlichkeit an, dass mindestens einer von $k$ unabhängig gesampelten Lösungen korrekt ist. Um diese Metrik zu verbessern, wurden fine-tuning-Methoden entwickelt, die den Pass@k-Erwartungswert direkt optimieren.

Ein kritisches, aber bisher theoretisch nicht vollständig verstandenes Phänomen ist jedoch ein Trade-off: Während Pass@k durch solche Optimierungen steigt, verschlechtert sich oft die Pass@1-Leistung (die Wahrscheinlichkeit, dass die erste und einzige Antwort korrekt ist). Da Pass@1 in der Praxis oft eine harte operative Einschränkung darstellt (wegen Latenz, Kosten oder fehlender Verifizierer für jeden Prompt), ist diese Degradation problematisch. Die zentrale Forschungsfrage lautet: Wann und warum führt die Optimierung von Pass@k zu einer Verschlechterung von Pass@1?

2. Methodik und Theoretischer Rahmen

Die Autoren führen eine theoretische Analyse durch, die auf der Untersuchung der Gradientenkonflikte zwischen den Zielen Pass@k und Pass@1 basiert.

A. Prompt-Interferenz (Prompt Interference)

Das Kernkonzept der Arbeit ist die Prompt-Interferenz. Da ein LLM über gemeinsame Parameter $\theta$ für alle Prompts verfügt, kann eine Parameteraktualisierung, die die Erfolgswahrscheinlichkeit für einen Prompt erhöht, die Wahrscheinlichkeit für einen anderen Prompt verringern.

Definition: Zwei Prompts $x$ und $x'$ interferieren negativ, wenn der Gradient der Erfolgswahrscheinlichkeit für $x$ ( $\nabla p_\theta(x)$ ) einen negativen Skalarprodukt-Wert mit dem Gradienten für $x'$ hat. Das bedeutet: Eine Verbesserung bei $x$ führt tendenziell zu einer Verschlechterung bei $x'$ .
Ähnlichkeitskern: Die Autoren definieren einen Ähnlichkeitskern $\kappa_\theta(x, x') = \langle \nabla p_\theta(x), \nabla p_\theta(x') \rangle$ , um diese Interferenz mathematisch zu erfassen.

B. Implizite Neu-Gewichtung (Implicit Reweighting)

Die Gradienten von Pass@k unterscheiden sich von denen von Pass@1 durch eine gewichtete Summe über die Prompts.

Der Pass@k-Gradient enthält einen Gewichtungsfaktor $w_k(p) = k(1-p)^{k-1}$ , wobei $p$ die Erfolgswahrscheinlichkeit eines einzelnen Prompts ist.
Effekt: Dieser Faktor gewichtet Prompts mit niedriger Erfolgswahrscheinlichkeit (schwere Prompts) stark hoch und Prompts mit hoher Erfolgswahrscheinlichkeit (einfache Prompts) stark herunter.
Konfliktmechanismus: Wenn die Prompts mit niedriger Erfolgswahrscheinlichkeit (die durch Pass@k hochgewichtet werden) negativ interferierend sind (d.h. ihre Verbesserung schadet dem Gesamtdurchschnitt Pass@1), dann dreht sich die Richtung des Pass@k-Gradienten weg von der Richtung des Pass@1-Gradienten.

C. Theoretische Charakterisierung

Die Autoren leiten eine explizite Formel für das Skalarprodukt der beiden Gradienten her:
$\langle \nabla J_k(\theta), \nabla J_1(\theta) \rangle = \mathbb{E}[w_{k,\theta}(x) \cdot a_\theta(x)]$
wobei $a_\theta(x)$ der „Agreement Score" ist (wie stark der Gradient eines einzelnen Prompts mit dem durchschnittlichen Pass@1-Gradienten übereinstimmt).

Ein negatives Skalarprodukt (obtuse Winkel) bedeutet einen Gradientenkonflikt.
Dies tritt auf, wenn die durch Pass@k induzierte Neu-Gewichtung negative Interferenz-Prompts so stark amplifiziert, dass sie den positiven Beitrag der restlichen Prompts überwiegen.

3. Hauptbeiträge

Konzept der Prompt-Interferenz: Einführung einer formalen Definition für positive und negative Interferenz zwischen Prompts basierend auf der Ähnlichkeit ihrer Pass@1-Gradienten.
Charakterisierung des Gradientenkonflikts: Beweis, dass Pass@k- und Pass@1-Gradienten nicht notwendigerweise kollinear sind. Die Autoren zeigen, dass der Konflikt entsteht, wenn die Pass@k-Gewichtung negative Interferenz-Prompts dominiert.
Ausreichende Bedingungen und Einfluss von $k$ : Herleitung von Bedingungen, unter denen ein Konflikt unvermeidbar ist. Es wird gezeigt, dass mit steigendem $k$ die Wahrscheinlichkeit für einen Konflikt zunimmt, insbesondere wenn negative Interferenz-Prompts eine signifikante Wahrscheinlichkeitsmasse haben.
Beweis der Degradation: Unter bestimmten Schrittweitenbedingungen wird mathematisch bewiesen, dass ein Schritt in Richtung des Pass@k-Gradienten zu einer gleichzeitigen Erhöhung von Pass@k und Verringerung von Pass@1 führt.
Empirische Validierung: Experimente mit LLMs (DeepSeek-R1-Distill-Llama-8B und Qwen-7B) auf dem MATH-Datensatz bestätigen die theoretischen Vorhersagen.

4. Ergebnisse

Die Experimente wurden auf mathematischen Reasoning-Aufgaben durchgeführt und zeigen folgende Ergebnisse:

Trennung der Agreement Scores: Es wurde eine klare Trennung zwischen „harten" Prompts (niedrige Pass@1-Wahrscheinlichkeit, negative Agreement Scores) und „einfachen" Prompts (hohe Pass@1-Wahrscheinlichkeit, positive Agreement Scores) beobachtet.
Extreme Gewichtung: Pass@k gewichtet harte Prompts um Größenordnungen höher als einfache Prompts (Verhältnisse von bis zu $10^{28}:1$ in den Experimenten).
Umkehrung der Gradientenrichtung: Durch diese extreme Gewichtung verschiebt sich der gewichtete durchschnittliche Agreement Score von positiv (was Pass@1 verbessern würde) auf stark negativ.
- Beispiel Llama-8B: Der gewichtete Score fiel von $+2.80 \times 10^{-3}$ auf $-1.12 \times 10^{-3}$ , was zu einem negativen inneren Produkt der Gradienten führte.
- Beispiel Qwen-7B: Trotz eines starken Überwiegens einfacher Prompts (Verhältnis 21,6:1) führte die extreme Gewichtung zu einem inneren Produkt von $-181$.
Konsequenz: Die Optimierung auf Pass@k führt in diesen Szenarien dazu, dass das Modell Parameter aktualisiert, die die Lösung schwieriger Probleme verbessern, aber dabei die Leistung bei einfacheren (und häufigeren) Problemen so stark verschlechtern, dass der Gesamtdurchschnitt (Pass@1) sinkt.

5. Bedeutung und Fazit

Diese Arbeit liefert eine fundamentale theoretische Erklärung für ein empirisch bekanntes, aber bisher unerklärtes Phänomen in der Nachtrainierung von LLMs.

Warnung vor blindem Pass@k-Optimierung: Die Ergebnisse zeigen, dass eine direkte Optimierung von Pass@k ohne Berücksichtigung der Prompt-Struktur und Interferenz riskant ist und die Zuverlässigkeit des Modells im Single-Shot-Modus (Pass@1) gefährden kann.
Neue Perspektive: Der Trade-off ist kein Zufall, sondern eine direkte Folge der mathematischen Struktur des Pass@k-Objektivs in Kombination mit negativer Prompt-Interferenz.
Zukünftige Richtungen: Die Arbeit schlägt vor, dass zukünftige Fine-Tuning-Methoden Mechanismen benötigen, um diesen Gradientenkonflikt zu mildern (z. B. durch „Gradient Surgery" oder angepasste Gewichtungsschemata), um die Vorteile von Multi-Attempt-Inferenz zu nutzen, ohne die Single-Shot-Leistung zu opfern.

Zusammenfassend demonstriert das Paper, dass die Annahme, Pass@k-Optimierung sei immer vorteilhaft oder zumindest neutral für Pass@1, falsch ist, und liefert die mathematischen Werkzeuge, um vorherzusagen, wann dieser negative Effekt auftreten wird.