Constructing a Portfolio Optimization Benchmark Framework for Evaluating Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een reisleider zoekt voor een complexe reis: het beleggen van geld. Je wilt iemand die niet alleen goed kan praten over de reis (de taal), maar die ook echt weet hoe je de beste route kiest om veilig en winstgeven te arriveren.

Dit onderzoek is als een grote test die twee dingen doet:

Het bouwt een nieuwe soort examen voor deze "reisleiders" (de slimme AI's, ofwel Large Language Models).
Het kijkt welke AI het beste is in het kiezen van de perfecte reisroute (een beleggingsportefeuille).

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. Het probleem: De oude examens waren te makkelijk

Tot nu toe werden AI's getest op hun taalvaardigheid. Het was alsof je ze vroeg: "Schrijf een mooi gedicht over een zonsondergang" of "Vat dit nieuwsartikel samen."
Maar in de echte financiële wereld gaat het niet om mooie woorden, maar om wiskundige keuzes. Het gaat om: "Hoe verdeel ik mijn geld over verschillende aandelen zodat ik de minste risico loop, maar toch genoeg winst maak?"

De oude tests konden niet meten of een AI echt goed kon rekenen en plannen. Ze konden alleen meten of de AI goed kon praten.

2. De oplossing: Een "Reisroute-examen"

De auteurs van dit paper hebben een nieuw examenbedacht, gebaseerd op de theorie van portefeuille-optimalisatie (een wiskundige manier om de beste mix van beleggingen te vinden).

Stel je dit examen voor als een keuzespel:

De AI krijgt een opdracht: "Beleg in deze 3 aandelen, met als doel: minimale schokken in je portemonnee."
De AI krijgt 4 mogelijke routes (antwoorden) voorgeschoteld.
Eén route is de wiskundig perfecte oplossing (de "juiste" route).
Drie andere routes zijn valkuilen (verkeerde routes) die er slim uitzien, maar niet de beste zijn.

Het mooie aan dit examen is dat er één duidelijk goed antwoord is, berekend met wiskunde. Er is geen ruimte voor "misschien" of "het hangt ervan af". De AI moet de perfecte route vinden.

3. De deelnemers: De drie reisleiders

De onderzoekers hebben drie beroemde AI's op de proef gesteld:

GPT-4 (de "Veiligheids-expert")
Gemini 1.5 Pro (de "Winst-jager")
Llama 3.1-70B (de "Beginner")

Ze kregen 9.500 van deze vragen, variërend van simpele situaties tot complexe scenario's met veel regels (bijvoorbeeld: "Je mag niet meer dan 20% in één aandeel steken").

4. De resultaten: Wie wint de wedstrijd?

Hier zijn de bevindingen, vertaald in analogieën:

GPT-4 (De Veiligheids-expert):
Deze AI was de beste in het vinden van de veiligste routes. Als de opdracht was om risico te minimaliseren (zoals een rustige wandeling zonder valkuilen), wist GPT-4 bijna altijd de perfecte route te kiezen. Ook als er veel regels waren (bijvoorbeeld "niet te ver van de weg af"), bleef deze AI kalm en correct.
- Kortom: GPT-4 begrijpt de wiskunde achter risico goed.
Gemini (De Winst-jager):
Deze AI was goed als de opdracht luidde: "Maak zoveel mogelijk winst!" Maar zodra de opdracht complexer werd (bijvoorbeeld: "Maak winst, maar zorg dat je niet te veel risico loopt"), begon Gemini te struikelen. Het neigde er vaak toe om de route te kiezen die er het meest winstgevend uitzag, zelfs als die route gevaarlijk was of niet aan de regels voldeed.
- Kortom: Gemini is goed in dromen van winst, maar minder goed in het plannen van een veilige route.
Llama (De Beginner):
Deze AI had over het algemeen de meeste moeite. Het maakte veel fouten, vooral als de regels streng waren. Het leek soms de verkeerde route te kiezen omdat het de complexe instructies niet goed kon volgen.

5. De grote les: AI is nog niet klaar voor de stuurmanstoel

De belangrijkste conclusie van het papier is: AI's zijn slim in praten, maar nog niet perfect in het nemen van complexe financiële beslissingen.

Als je een AI vraagt om een simpel verhaal te vertellen, doet hij dat geweldig.
Als je vraagt om een complexe financiële strategie te bedenken met veel regels en risico's, maken ze nog veel fouten. Vooral bij moeilijke combinaties (zoals "maximaliseer winst én minimaliseer risico tegelijk") faalden alle drie de AI's bijna volledig.

De metafoor voor de toekomst:
Je kunt deze AI's nu al gebruiken als een handige assistent die je helpt met het verzamelen van informatie of het maken van een eerste opzet. Maar je kunt ze niet nog als de hoofd-belegger aan het stuur zetten zonder dat een mens (een expert) de routekaart nog eens goed controleert. Ze zijn nog niet betrouwbaar genoeg om alleen te beslissen als het echt ingewikkeld wordt.

Samenvattend

Dit onderzoek heeft een nieuwe "rijbewijstest" voor AI's bedacht. De test laat zien dat sommige AI's (zoals GPT-4) al redelijk goed kunnen rekenen met risico's, maar dat ze allemaal nog veel moeten leren voordat ze echt de leiding kunnen nemen in de complexe wereld van beleggen. Het is een belangrijke stap om te begrijpen waar we AI's nu al voor kunnen gebruiken en waar we nog voorzichtig moeten zijn.

Constructing a Portfolio Optimization Benchmark Framework for Evaluating Large Language Models

1. Het probleem: De oude examens waren te makkelijk

2. De oplossing: Een "Reisroute-examen"

3. De deelnemers: De drie reisleiders

4. De resultaten: Wie wint de wedstrijd?

5. De grote les: AI is nog niet klaar voor de stuurmanstoel

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Significantie en Toekomstperspectief

Constructing a Portfolio Optimization Benchmark Framework for Evaluating Large Language Models

1. Het probleem: De oude examens waren te makkelijk

2. De oplossing: Een "Reisroute-examen"

3. De deelnemers: De drie reisleiders

4. De resultaten: Wie wint de wedstrijd?

5. De grote les: AI is nog niet klaar voor de stuurmanstoel

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Significantie en Toekomstperspectief

Meer zoals dit

LLM-Agent Interactions on Markets with Information Asymmetries

Conscription and its exemption in 19th Century Japan: Incentivized family head in educational market

Spectral Portfolio Theory: From SGD Weight Matrices to Wealth Dynamics

Slippage-at-Risk (SaR): A Forward-Looking Liquidity Risk Framework for Perpetual Futures Exchanges

AlgoXpert Alpha Research Framework. A Rigorous IS WFA OOS Protocol for Mitigating Overfitting in Quantitative Strategies