Each language version is independently generated for its own context, not a direct translation.
🎲 Voorspellen is meer dan alleen een getal noemen
Stel je voor dat je een vriend vraagt: "Wat wordt de temperatuur morgen?"
De huidige standaard in de wereld van kunstmatige intelligentie (AI) is om te zeggen: "Het wordt precies 15 graden."
Dit artikel, geschreven door Jonas Landsgesell en Pascal Knoll, zegt: "Dat is niet genoeg!"
In de echte wereld is het weer niet altijd 15 graden. Het kan 10 graden zijn, maar ook 20. Als je alleen 15 graden zegt, geef je geen idee van het risico. Wat als het stormt? Wat als het vriest?
De auteurs zeggen dat moderne AI-modellen (zoals TabPFN en TabICL) eigenlijk al heel slim zijn. Ze kunnen niet alleen één getal voorspellen, maar een heel spectrum van mogelijkheden. Ze kunnen zeggen: "Er is 20% kans op 10 graden, 60% kans op 15 graden, en 20% kans op 20 graden." Dit noemen ze distributieel regressie (het voorspellen van een hele verdeling in plaats van één punt).
🎯 Het probleem: De verkeerde meetlat
Het probleem is dat we deze slimme modellen nog steeds beoordelen met de oude, saaie meetlat.
Stel je voor dat je een dartspeler beoordeelt.
- De oude manier: Je kijkt alleen naar de afstand van de pijl tot het midden van het bord (de 'gemiddelde' score).
- Het probleem: Als de speler drie keer in de rand van het bord zit (dicht bij het doel, maar niet precies in het midden), scoort hij volgens de oude meting slecht. Maar als hij één keer precies in het midden zit en twee keer ver naast het bord, scoort hij misschien 'gemiddeld' goed, terwijl hij onbetrouwbaar is.
De auteurs zeggen: "We moeten stoppen met alleen kijken naar het gemiddelde (zoals de 'gemiddelde fout' of MSE). We moeten kijken naar de hele voorspelling."
📏 De nieuwe meetlat: De "Proper Scoring Rules"
Om te weten of een AI goed is in het voorspellen van onzekerheid, gebruiken de auteurs speciale meetlaten die ze "Proper Scoring Rules" noemen.
Hier zijn twee belangrijke voorbeelden uit het artikel, vertaald naar analogieën:
1. De Log-Score (De "Perfecte Gokker")
Stel je voor dat je een dobbelsteen gooit.
- Als je zegt: "Het wordt een 6" en er valt een 6, krijg je een enorme beloning.
- Maar als er een 1 valt, krijg je een straf die oneindig groot is.
- Gevolg: Deze meetlat is extreem streng. De AI probeert dan alles te doen om één specifiek getal perfect te voorspellen, en negeert de rest. Dit werkt goed als je alleen geïnteresseerd bent in één exacte uitkomst, maar gevaarlijk als je de hele situatie wilt begrijpen.
2. De CRPS (De "Eerlijke Rekenmeester")
Dit is de favoriete meetlat van de auteurs.
Stel je voor dat je een voorspelling doet over de lengte van mensen in een stad.
- Als je zegt: "Iedereen is 180 cm" en er loopt een persoon van 150 cm voorbij, is dat een fout.
- Maar als je zegt: "De meeste mensen zijn tussen de 160 en 190 cm", en er loopt iemand van 150 cm voorbij, is dat ook een fout, maar minder erg dan bij de eerste situatie.
- Het idee: De CRPS straft je af op basis van hoe ver je voorspelling van de werkelijkheid af ligt, maar hij houdt rekening met de afstand. Als je voorspelt dat het 15 graden is en het is 16, is dat minder erg dan als je voorspelt dat het 10 graden is.
- Waarom is dit beter? Het dwingt de AI om een eerlijk beeld te schetsen van de hele kansverdeling, inclusief de uitschieters.
🎨 Waarom maakt de keuze van de meetlat uit?
Dit is het meest interessante deel van het artikel. De auteurs tonen aan dat de meetlat bepaalt wat de AI leert.
Stel je voor dat je een schilderij laat maken.
- Als je de schilder zegt: "Maak het zo realistisch mogelijk" (Log-Score), zal hij proberen elke penseelstreek perfect te zetten, maar hij kan gaan panikeren als er een vlekje verf op het doek valt.
- Als je zegt: "Maak het zo dat het eruitziet alsof het een zonnige dag is" (CRPS), zal hij de hele sfeer vastleggen, inclusief de wolken en de schaduwen.
In het artikel laten ze zien dat als je een AI traint met de ene meetlat, hij beter wordt in het voorspellen van het gemiddelde. Als je hem traint met een andere meetlat, wordt hij beter in het voorspellen van de uitersten (zoals extreme stormen of crashen van de beurs).
De les: Er is geen "beste" AI voor alles. De beste AI hangt af van wat jij wilt bereiken.
- Wil je weten wat de gemiddelde verkoop is? Gebruik dan de oude meetlat.
- Wil je weten wat de risico's zijn (bijvoorbeeld: wat als de verkoop extreem laag is)? Dan moet je de AI trainen met de nieuwe meetlat (CRPS).
🚀 Wat betekent dit voor de toekomst?
De auteurs pleiten voor een revolutie in hoe we AI-modellen testen en gebruiken:
- Stop met alleen kijken naar het gemiddelde: We moeten AI-modellen beoordelen op hoe goed ze de onzeekerheid voorspellen.
- Gebruik de juiste meetlat: Als je een AI gebruikt voor een bank (waar een fout in de ene richting veel geld kost en in de andere richting niet), moet je de AI trainen met een meetlat die dat risico herkent.
- Finetuning is nodig: De beste modellen (zoals TabPFN) zijn nu al slim, maar ze moeten misschien nog even "bijgespijkerd" worden (finetuning) met de juiste meetlat voor jouw specifieke probleem.
Samenvattend in één zin:
Het artikel zegt dat we stoppen met vragen aan AI: "Wat is het antwoord?" en beginnen te vragen: "Wat is de kans op elk mogelijk antwoord, en hoe goed past die kans bij de werkelijkheid?" Door de juiste meetlat te gebruiken, krijgen we AI's die niet alleen slim zijn, maar ook eerlijk over hun eigen onzekerheid.