Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een zeer intelligente, maar soms wat verwarde robot hebt die alles kan doen: van wiskundige sommen oplossen tot het schrijven van gedichten. Deze robot noemen we een LLM (Large Language Model).
Om deze robot te laten doen wat jij wilt, geef je hem een opdracht. In de wereld van AI noemen we dit een "prompt".
Tot nu toe was het controleren van deze robot heel simpel: we keken alleen naar het antwoord. Als het antwoord goed was, kregen we een "goed". Als het fout was, een "fout". Maar dit was alsof je een kok alleen beoordeelt op of het eten op het bord smaakt, zonder te kijken of hij de ingrediënten goed heeft gemeten, of hij de keuken schoon hield, of hij de klant niet beledigde. Je wist niet waarom het misging.
PEEM (Prompt Engineering Evaluation Metrics) is een nieuw, slim systeem dat dit probleem oplost. Het is als een super-keurmeester die niet alleen kijkt naar het eindresultaat, maar ook naar hoe de opdracht is gegeven en hoe de robot heeft nagedacht.
Hier is hoe PEEM werkt, vertaald in alledaagse taal:
1. Twee Kijkers, Één Systeem
PEEM kijkt naar twee dingen tegelijk:
- De Opdracht (Prompt): Was de vraag duidelijk? Was de taal netjes? Was de vraag eerlijk en zonder vooroordelen?
- Analogie: Stel je voor dat je een kok vraagt: "Maak iets lekkers." Dat is een slechte opdracht. PEEM zegt: "Hé, die opdracht is vaag! Zeg liever: 'Bak een cake met chocolade en aardbeien'."
- Het Antwoord (Response): Is het antwoord juist? Is het logisch? Is het kort en krachtig? Is het eerlijk?
- Analogie: Als de kok een cake maakt die smaakt als zeep, zegt PEEM: "De smaak is slecht, maar je hebt de oven wel op de juiste temperatuur gezet. Laten we kijken waar de smaakfout zit."
2. De 9 Regels van de Keurmeester
PEEM heeft een strakke lijst met 9 regels (of assen) om alles te beoordelen:
- Voor de opdracht: Is het duidelijk? Is het goed Nederlands? Is het eerlijk?
- Voor het antwoord: Is het waar? Is het logisch opgebouwd? Is het relevant? Is het niet vooroordeelachtig? Is het helder? Is het niet te langdradig?
In plaats van alleen een cijfer te geven (bijvoorbeeld een 7), geeft PEEM ook een uitleg in gewone taal.
- Voorbeeld: "Je krijgt een 3 voor 'Logica', omdat je stap 2 overslaat. Je zegt '2+2=5', maar je legt niet uit hoe je daar komt."
3. Waarom is dit zo cool?
Het paper toont drie belangrijke dingen aan:
- Het klopt met de realiteit: Als PEEM zegt dat een antwoord goed is, is het antwoord meestal ook echt goed (volgens de traditionele cijfers). Maar PEEM geeft je meer informatie. Het is alsof je niet alleen ziet dat een auto sneller rijdt, maar ook dat de motor soepeler draait.
- Het is robuust: Als je de vraag net iets anders stelt (bijvoorbeeld: "Hoeveel appels heb ik?" in plaats van "Hoeveel appels bezit ik?"), geeft PEEM hetzelfde oordeel. Maar als je de vraag verdraait met een listige truc (een "adversarial prompt"), ziet PEEM direct dat de kwaliteit daalt. Het is niet te omzeilen door alleen woorden te veranderen.
- Het helpt de robot leren (zonder menselijke hulp): Dit is misschien wel het coolste deel. Je kunt PEEM gebruiken om de robot zichzelf te verbeteren.
- Het proces: Je geeft de robot een opdracht -> PEEM kijkt en zegt: "Je opdracht was vaag, maak hem specifieker." -> De robot herschrijft zijn eigen opdracht -> Hij probeert het opnieuw -> Hij krijgt een beter antwoord.
- Het resultaat: In de tests bleek dat deze zelf-correctie de robot tot wel 11,7 punten beter maakte dan andere methoden. Het is alsof je een student een examen laat maken, de docent (PEEM) de fouten uitlegt, en de student het examen direct opnieuw maakt met die tips.
Samenvatting
PEEM is een spiegel voor kunstmatige intelligentie. In plaats van alleen te zeggen "Goed" of "Slecht", vertelt het je:
- Of je de vraag goed stelde.
- Of het antwoord logisch en eerlijk was.
- Waarom het misging.
- Hoe je het de volgende keer beter kunt doen.
Het maakt de interactie met slimme robots niet alleen slimmer, maar ook begrijpelijker en betrouwbaarder.