$p1$: Better Prompt Optimization with Fewer Prompts — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde robot hebt. Deze robot kan geweldige dingen doen, maar hij heeft een instructieblad nodig om precies te weten wat hij moet doen. In de wereld van kunstmatige intelligentie noemen we dit een "systeemprompt". Het is als de "hoofdrol" die je de robot geeft voordat hij aan het werk gaat.

De onderzoekers van dit paper hebben een probleem ontdekt: soms werkt het verbeteren van dit instructieblad geweldig, en soms lukt het helemaal niet, zelfs niet als je er urenlang naar kijkt. Ze hebben uitgezocht waarom dat zo is en een slimme truc bedacht om het altijd te laten werken.

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: De "Ruis" in de Radio

Stel je voor dat je probeert een radio te stemmen op een zender.

De goede zender (Goede Prompt): Als de zender sterk is, hoor je duidelijk muziek. Je weet precies welknop je moet draaien om het geluid beter te maken.
De slechte zender (Slechte Prompt): Als de zender zwak is, hoor je alleen geknetter en ruis. Je draait aan de knop, maar het geluid verandert nauwelijks. Je kunt niet zeggen of je beter of slechter bent, want de ruis is te hard.

In de wereld van AI betekent dit:

Bij sommige taken (zoals het volgen van strikte regels, zoals "schrijf alleen in hoofdletters") maakt de instructie een groot verschil. De robot luistert goed.
Bij moeilijke taken (zoals complexe wiskundeproblemen) is de robot vaak al zo onzeker dat hij van alles probeert. Of je nu een goede of een slechte instructie geeft, het antwoord is vaak even goed of even fout. De "ruis" (de toevalligheid van de robot) is zo groot dat je de echte verbetering niet kunt zien.

2. De Verbluffende Ontdekking: Meer is niet altijd Beter

Normaal gesproken denken we: "Als ik meer voorbeelden heb, leer ik beter." Maar deze onderzoekers ontdekten iets tegenstrijdigs:

Bij wiskundeproblemen kan het schadelijk zijn om te veel voorbeelden te gebruiken.
De Analogie: Stel je voor dat je een kok probeert te leren koken.
- Als je hem één heel lastig recept geeft (bijvoorbeeld een taart die alleen lukt als je de oven op de juiste temperatuur zet), zie je duidelijk of hij de instructies goed volgt.
- Als je hem 30 verschillende recepten geeft (taarten, soepen, salades), en je vraagt: "Was de instructie goed?", dan wordt het antwoord vaag. Misschien was de instructie perfect voor de taart, maar slecht voor de soep. Als je alles door elkaar haalt, middelt het effect weg. De kok lijkt op geen van beide recepten echt te verbeteren, omdat de verschillende taken elkaar opheffen.

Dit is wat er gebeurt bij complexe taken: als je te veel verschillende vragen gebruikt, wordt het signaal (wat werkt wel en wat niet?) zo zwak dat de robot niet meer weet hoe hij zich moet aanpassen.

3. De Oplossing: p1 (De Slimme Filter)

De onderzoekers bedachten een oplossing genaamd p1. In plaats van de robot te laten oefenen op alle 30 wiskundevragen, kiezen ze er slechts een paar uit (soms zelfs maar twee!).

Hoe werkt het? Ze zoeken specifiek naar die vragen waar het verschil tussen een goede en een slechte instructie het grootst is.
De Analogie: In plaats van de kok te laten koken voor een groot, rommelig buffet waar hij alles door elkaar haalt, geven ze hem twee specifieke, moeilijke gerechten waar hij echt moet laten zien of hij de instructies begrijpt.
- Als hij op deze twee gerechten slaagt, weten we dat hij de instructie echt heeft begrepen.
- Omdat ze zich focussen op deze "kritieke" vragen, is het signaal veel sterker. De robot leert sneller en beter.

4. Het Resultaat: Van Twee Vragen naar een Meester

Het meest verbazingwekkende is dit:
Ze hebben de robot getraind op slechts twee wiskundevragen uit een wedstrijd (AIME 24).

Het resultaat? De robot kreeg een instructieblad dat hij niet alleen op die twee vragen goed kon gebruiken, maar dat hij ook perfect kon toepassen op andere, nog moeilijkere wiskundewedstrijden die hij nooit eerder had gezien!
Het was alsof je iemand twee keer laat oefenen op het fietsen op een helling, en hij kan daarna ineens overal fietsen, ook in de regen en op bergpaden.

Samenvatting

Deze paper leert ons dat bij het trainen van slimme robots, kwaliteit belangrijker is dan kwantiteit.

Als je te veel verschillende, verwarrende voorbeelden gebruikt, raakt de robot in de war en leert hij niets.
Als je slim kiest en alleen de voorbeelden gebruikt waar het verschil tussen goed en slecht het duidelijkst is, leert de robot razendsnel en wordt hij een meester in zijn vak.

Het is een beetje zoals het kiezen van de juiste muziek voor een feestje: soms helpt het niet om 100 nummers te draaien, maar juist het spelen van één perfect nummer dat iedereen aan het dansen zet.

Each language version is independently generated for its own context, not a direct translation.

Titel: Better Prompt Optimization with Fewer Prompts (p1)

Auteurs: Zhaolin Gao et al. (Cornell University, Microsoft, Harvard, Databricks)
Doel: Het analyseren van waarom prompt-optimatie op sommige taken faalt en het introduceren van een filtermethode (p1) om dit te verbeteren.

1. Probleemstelling

Prompt-optimatie is een veelbelovende techniek om de prestaties van Large Language Models (LLM's) te verbeteren zonder de modelgewichten aan te passen, door een beter "systeemprompt" te vinden. Echter, de effectiviteit hiervan varieert sterk:

Op sommige taken (zoals instructie-opvolging) levert het aanzienlijke winst op.
Op complexe redeneertaken (zoals wiskundige competitieproblemen, bijv. AIME) faalt het vaak, zelfs met aanzienlijke rekenkracht.

De auteurs onderzoeken de onderliggende mechanismen die deze inconsistentie veroorzaken. De kernvraag is: Waarom faalt prompt-optimatie op heterogene datasets zoals wiskundige redenering, terwijl het werkt op homogene datasets?

2. Methodologie en Theoretische Analyse

Variance Decomposition (Variantie Decompositie)

De auteurs analyseren de variantie in de beloning (reward) over verschillende systeemprompts. Ze tonen aan dat de totale variantie kan worden opgesplitst in twee componenten:

Variantie tussen antwoorden (Response Variance): Dit komt door de inherente stochastiek van het generatieproces van het LLM (het model geeft soms verschillende antwoorden op dezelfde prompt).
Variantie tussen systeemprompts (System Prompt Variance): Dit weerspiegelt de echte verschillen in kwaliteit tussen de kandidaat-systeemprompts.

Cruciaal inzicht: Prompt-optimatie (via Reinforcement Learning) slaagt alleen wanneer de variantie tussen systeemprompts groot genoeg is om de ruis van de antwoordvariantie te overstemmen.

Bij IFBench (instructie-opvolging) is de variantie tussen prompts groot; verschillende prompts leiden tot duidelijk verschillende resultaten.
Bij AIME (wiskunde) is de variantie tussen prompts klein; de stochastiek van het genereren van oplossingen domineert het signaal.

Het "Dataset Size Paradox"

Een counter-intuïtieve bevinding is dat het vergroten van de dataset de optimatie kan verzwakken, vooral op heterogene taken.

Op heterogene taken (zoals wiskunde) kunnen verschillende gebruikersprompts (vragen) profiteren van verschillende systeemprompts.
Wanneer je over een groot, divers dataset averageert, heffen deze voorkeuren elkaar op. De verwachte beloning van een goede prompt wordt statistisch ononderscheidbaar van een slechte prompt.
Dit verduistert het leer-signaal voor de RL-agent.

De p1 Methode: Prompt Filtering

Gedreven door deze inzichten stellen de auteurs p1 voor: een eenvoudige filtermethode die een klein subset van gebruikersprompts selecteert voor training.

Selectiecriteria: p1 kiest een subset van $K_{top}$ prompts (standaard 2) die de hoogste variantie tussen systeemprompts vertonen.
Doel: Deze subset bevat de prompts waar de keuze van het systeemprompt het grootste verschil maakt. Hierdoor is het leer-signaal het sterkst.
Implementatie: In plaats van te trainen op de volledige dataset, wordt de RL-optimatie uitgevoerd op deze gefilterde subset. Dit verhoogt de signaal-ruisverhouding (SNR) voor de optimatie.

3. Experimentele Setup

Datasets: IFBench (instructie-opvolging) en AIME 2024/2025 (wiskundige redenering).
Modellen: Qwen3-4B-Instruct en Qwen3-1.7B als zowel de prompt-generator ( $\pi'$ ) als de response-model ( $\pi$ ).
Baselines: Vergelijking met GEPA (evolutionaire zoektocht) en standaard RL-optimatie op de volledige dataset.
Metingen: Nauwkeurigheid op AIME 25, AIME 26, HMMT 25, en HMMT 26.

4. Belangrijkste Resultaten

Prestaties op Wiskundige Redenering (AIME/HMMT)

Standaard RL en GEPA: Falen om significante verbetering te boeken ten opzichte van het basismodel, zelfs met veel compute. Ze blijven dicht bij de initiatie.
p1: Toont aanzienlijke verbeteringen.
- Opmerkelijk: Training op slechts twee prompts uit AIME 24 (subset [1, 23]) leidt tot een systeemprompt die 54.01% nauwkeurigheid behaalt op AIME 25 (tegenover 47.03% voor het basismodel).
- Deze verbetering generaliseert goed naar andere benchmarks (AIME 26, HMMT) en naar grotere modellen (Qwen3-30B), wat aantoont dat de prompt geen overfitting is op specifieke vragen, maar een verbetering van het redeneervermogen.

Prestaties op Instructie-opvolging (IFBench)

Op homogene datasets zoals IFBench werkt standaard RL en GEPA al goed.
p1 presteert hier iets minder goed dan op de volledige dataset, wat bevestigt dat filtering alleen nodig is wanneer de dataset heterogeen is en het signaal verduisterd wordt door averaging.

Kwalitatieve Analyse (Generalisatie vs. Memorization)

GEPA: Neigt tot het "memoriseren" van patronen uit de trainingsset (bijv. specifieke domeinkennis voor meetkunde).
p1: Produceert prompts die gericht zijn op algemene redeneerstrategieën (bijv. "denk als een mens, inclusief twijfel en fouten"), wat leidt tot betere generalisatie naar nieuwe problemen.

5. Bijdragen en Betekenis

Theoretisch Inzicht: Het paper biedt een wiskundige verklaring voor de inconsistentie van prompt-optimatie, gebaseerd op de decompositie van variantie. Het identificeert dat een te grote dataset op heterogene taken het leer-signaal kan "verwateren".
p1 Methode: Een eenvoudige, effectieve en compute-efficiënte strategie die aantoont dat kwaliteit (selectie van informatieve prompts) belangrijker is dan kwantiteit voor prompt-optimatie op complexe taken.
Praktische Impact: Het toont aan dat het mogelijk is om krachtige, generaliserende systeemprompts te leren met extreem weinig data (slechts 2 voorbeelden), wat de kosten voor prompt-engineering drastisch verlaagt.
Generalisatie: De geoptimaliseerde prompts werken niet alleen op het trainingsmodel, maar transfereren ook naar grotere modellen en ongezette benchmarks, wat suggereert dat p1 fundamentele redeneercapaciteiten verbetert in plaats van oppervlakkige patronen te leren.

Conclusie

Het paper "Better Prompt Optimization with Fewer Prompts" weerlegt de intuïtie dat "meer data altijd beter is" voor prompt-optimatie. Door in te zien dat heterogene datasets het signaal verzwakken, introduceert p1 een filtermechanisme dat zich concentreert op de meest informatieve prompts. Dit resulteert in superieure prestaties op complexe redeneertaken, met een opmerkelijke generalisatie naar nieuwe modellen en taken, zelfs wanneer getraind op een minimaal aantal voorbeelden.

p1p1p1: Better Prompt Optimization with Fewer Prompts