UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt (een Large Language Model of LLM). Je wilt dat deze assistent een taak voor je uitvoert, bijvoorbeeld: "Vind de perfecte film voor mij."

Als je dit vraagt in gewoon Nederlands, zoals: "Vind een grappige en romantische film die ik zeker leuk zal vinden," kan de assistent in de war raken. Wat bedoel je precies met "zeker leuk"? Moet de film 50% grappig en 50% romantisch zijn? Of moet hij vooral grappig zijn, maar dan wel een beetje romantisch? De assistent moet gissen naar jouw intentie, en dat leidt vaak tot een gemiddeld resultaat.

Dit artikel introduceert een nieuwe manier van praten met deze slimme assistent, genaamd UtilityMax Prompting. In plaats van te praten als een mens, praat je tegen de assistent als een wiskundige.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Vage Wens

Stel je voor dat je een kok (de LLM) vraagt: "Maak een gerecht dat lekker is, maar ook gezond en niet te duur."
De kok denkt na: "Wat is 'lekker'? Wat is 'niet te duur' voor deze klant?" Hij maakt een gerecht dat misschien wel gezond is, maar niet zo lekker, of juist heel lekker maar te duur. De instructie was te vaag.

2. De Oplossing: De Wiskundige Receptkaart

Met UtilityMax geef je de kok geen vage zin, maar een formule. Je zegt:
"Je doel is om de 'Totale Waarde' van het gerecht te maximaliseren. De formule is: (Lekkerheidsscore) × (Gezondheidsfactor) × (Prijsfactor)."

Nu moet de kok niet meer gissen. Hij moet voor elk mogelijk gerecht die hij bedenkt, de drie getallen apart berekenen en ze vermenigvuldigen. Hij kiest dan het gerecht met het hoogste eindgetal.

3. Hoe werkt dit voor een AI?

In het artikel wordt dit getoetst aan een filmadvies-systeem.

De oude manier (Natuurlijke taal): "Geef mij een film die grappig is, romantisch is en waar ik een hoge score aan zal geven." De AI probeert dit te raden.
De nieuwe manier (UtilityMax): De AI krijgt een opdracht die er zo uitziet:
*"Voor elke film die je kiest, moet je drie dingen schatten:
1. Hoe hoog is de kans dat ik deze film een hoge score geef? (Bijv. 0.8)
2. Is de film een komedie? (Ja = 1, Nee = 0)
3. Is de film een romantische film? (Ja = 1, Nee = 0)
Je doel is om het getal te maximaliseren: (Score) × (Komedie?) × (Romantiek?). Als een film geen komedie is, wordt het getal 0, dus die film valt direct af."*

Door deze wiskundige "rekenregels" te geven, wordt de AI gedwongen om stap voor stap na te denken over elk onderdeel van je wens, in plaats van alles door elkaar te halen.

4. Wat hebben ze ontdekt?

De onderzoekers hebben dit getest met drie van de slimste AI-modellen ter wereld (van bedrijven als OpenAI, Google en Anthropic) op een dataset van miljoenen filmbeoordelingen.

Het resultaat? De wiskundige manier werkt veel beter.

De AI gaf vaker films die écht pasten bij de criteria.
Het maakte niet uit welke AI je gebruikte; de methode werkte bij allemaal.
Zelfs als je de AI heel streng instrueerde in gewoon Nederlands ("Geef alleen komedies en romantiek!"), bleef de wiskundige methode beter presteren.

Waarom is dit belangrijk?

Tot nu toe moesten mensen "prompt engineering" doen: ze probeerden de perfecte zin te vinden om de AI te overtuigen. Dit artikel zegt: "Stop met het zoeken naar de perfecte zin. Gebruik in plaats daarvan een formele opdracht."

Het is alsof je stopt met het proberen om een robot te overtuigen met een mooi verhaal, en je hem in plaats daarvan een exacte blauwdruk geeft. De robot hoeft niet meer te "voelen" wat je bedoelt; hij hoeft alleen maar de blauwdruk te volgen.

Kortom: Als je een AI iets complex wilt laten doen met meerdere eisen (zoals: goedkoop, snel én veilig), geef dan geen vaag verzoek. Geef een wiskundige formule. De AI wordt dan een betere "beslissingsmaker" en minder een "gokker".

Each language version is independently generated for its own context, not a direct translation.

Titel: UtilityMax Prompting: Een Formeel Kader voor Multi-Doelwit Optimalisatie van Grootte Taalmodellen (LLM's)

Auteur: Ofir Marom (Onafhankelijk Onderzoeker)
Datum: 12 maart 2026

1. Het Probleem

De prestaties van Large Language Models (LLM's) zijn sterk afhankelijk van de kwaliteit van de prompt. Hoewel veel bestaande technieken (zoals Chain-of-Thought of Prompt Optimization) de redeneerprocessen van het model verbeteren, delen ze een fundamentele beperking: de taakdoelstellingen worden in natuurlijke taal gespecificeerd.

In scenario's met één doelwit (bijvoorbeeld het oplossen van een wiskundeprobleem) werkt dit goed. Echter, bij multi-objectieve taken (waar meerdere, soms tegenstrijdige doelen tegelijkertijd moeten worden geoptimaliseerd) leidt natuurlijke taal tot ambiguïteit.

Voorbeeld: Een prompt als "maximaliseer winst bij een gemiddeld risiconiveau" is vaag. Het model moet interpreteren wat "gemiddeld" betekent en hoe het de afweging tussen winst en risico moet maken.
Conclusie: Natuurlijke taal is onvoldoende voor precieze optimalisatie wanneer meerdere afhankelijke variabelen betrokken zijn.

2. Methodologie: Het UtilityMax Framework

Het paper introduceert UtilityMax Prompting, een zero-shot framework dat de natuurlijke taal-doelstelling vervangt door een formeel wiskundig specificatie. Het kader baseert zich op de theorie van invloeddiagrammen (influence diagrams).

De Kerncomponenten:

Influence Diagram: De taak wordt gereconstrueerd als een gericht acyclisch graaf (DAG).
- Beslissingsknooppunt ( $A$ ): De mogelijke antwoorden van de LLM.
- Toevalknooppunten ( $X_1, ..., X_n$ ): De verschillende componenten van het doelwit (bijv. genre, score, risico).
- Nutsknooppunt ( $U$ ): Een nutfunctie die over de kansverdelingen van de toevalknooppunten wordt gedefinieerd.
De Nutfunctie: Er wordt een multiplicatieve nutfunctie gedefinieerd: $U(X_1, ..., X_n) = \prod_{i=1}^n f_i(X_i)$ .
Optimalisatie: De LLM wordt geïnstrueerd om het antwoord $a^*$ $a^{*}$ te vinden dat de verwachte nut ( $E[U|A]$ $E [U ∣ A]$ ) maximaliseert.
- Door de onafhankelijkheid van de toevalknooppunten (of via een "gating"-mechanisme voor binaire variabelen) factoriseert de verwachte nut tot een product van individuele verwachtingen:
  $E[U | A] = \prod_{i=1}^n E[f_i(X_i) | A]$
Het Prompting Template: De prompt instrueert het model om:
- Een reeks kandidaat-antwoorden te genereren.
- Voor elk kandidaat de individuele verwachte waarden ( $E[X_i|A]$ ) te schatten op basis van interne kennis.
- Het product van deze waarden te berekenen.
- Het antwoord te selecteren dat dit product maximaliseert.

Speciale Geval (Binaire Variabelen):
Voor binaire toevalknooppunten (0 of 1) wordt de voorwaarde van conditionele onafhankelijkheid versoepeld. Als een ouderknooppunt 0 is, is de kans op een actief kindknooppunt 0. Dit maakt het model robuust voor afhankelijkheden zonder de berekeningscomplexiteit te verhogen.

3. Belangrijkste Bijdragen

Formele Specificatie: Vervanging van ambiguïteit in natuurlijke taal door een wiskundige optimalisatieformule.
Zero-Shot Benadering: Het vereist geen voorbeelden (few-shot) en geen externe scorefunctie om iteratief prompts te verbeteren (zoals bij OPRO).
Expliciet Redeneren: Het dwingt het LLM om expliciet over elke component van het doelwit na te denken in plaats van te vertrouwen op een subjectieve interpretatie van een zin.
Universeel Kader: Een template die toepasbaar is op diverse multi-objectieve taken.

4. Experimentele Validatie en Resultaten

Opzet:

Dataset: MovieLens 1M.
Taak: Aanbeveling van de top 10 films voor een gebruiker, met als beperking dat de films zowel komedie als romance moeten zijn, en een hoge rating moeten hebben.
Modellen: Drie state-of-the-art modellen: Claude Sonnet 4.6, GPT-5.4, en Gemini 2.5 Pro.
Vergelijking:
1. Basic: Natuurlijke taal ("geef komedie en romance").
2. Harsh: Striktere natuurlijke taal ("alleen komedie en romance, niets anders").
3. UtilityMax: Formele prompt met de nutfunctie $O(a) = E[S] \times P(G1) \times P(G2)$ .

Resultaten:
UtilityMax presteerde consistent beter dan beide natuurlijke taal-baselines op alle drie de modellen en beide metrieken (Precision@10 en NDCG@10).

Voorbeeld (Claude Sonnet 4.6):
- Improvement t.o.v. Basic: +12,7% (Precision) en +16,5% (NDCG).
- Improvement t.o.v. Harsh: +11,9% (Precision) en +18,8% (NDCG).
Statistische Significantie: Een gepaarde Wilcoxon-signed-rank test toonde aan dat UtilityMax significant beter presteerde dan de baselines ( $p < 0.01$ ) voor alle modellen.
Observatie: De "Harsh" prompt presteerde niet consistent beter dan de "Basic" prompt, wat suggereert dat het simpelweg "harder" formuleren in natuurlijke taal de onderliggende ambiguïteit niet oplost.

5. Betekenis en Toekomstperspectief

Significantie:
Het onderzoek toont aan dat het formuleren van doelen in wiskundige taal de prestaties van LLM's bij complexe, multi-objectieve taken aanzienlijk kan verbeteren. Het lost het probleem van gewichtsbepaling en ambiguïteit op dat inherent is aan natuurlijke taal prompts.

Beperkingen en Aannames:

Het framework vereist dat het onderliggende model goed gekalibreerde kansinschattingen kan maken. Als een model de componenten niet betrouwbaar kan schatten, kan het framework falen.
De huidige resultaten zijn gebaseerd op frontier-modellen; zwakkere modellen kunnen onder de drempelwaarde vallen.

Toekomstig Onderzoek:

Automatisering: Het ontwikkelen van methoden om automatisch de relevante variabelen uit een natuurlijke taalbeschrijving te halen en de UtilityMax-prompt te genereren.
Afhankelijkheden: Het verder versoepelen van de aannames over conditionele onafhankelijkheid tussen toevalknooppunten.
Capaciteitsdrempel: Systematisch onderzoek naar welk niveau van modelcapaciteit nodig is om UtilityMax effectief te kunnen gebruiken.

Conclusie:
UtilityMax biedt een krachtige aanvulling op bestaande prompt-engineering technieken door de onduidelijkheid van natuurlijke taal te elimineren en het model te sturen naar een wiskundig gedefinieerd optimum.

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

1. Het Probleem: De Vage Wens

2. De Oplossing: De Wiskundige Receptkaart

3. Hoe werkt dit voor een AI?

4. Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Titel: UtilityMax Prompting: Een Formeel Kader voor Multi-Doelwit Optimalisatie van Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie: Het UtilityMax Framework

3. Belangrijkste Bijdragen

4. Experimentele Validatie en Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks