Learning Risk Preferences in Markov Decision Processes: an Application to the Fourth Down Decision in the National Football League

Deze studie gebruikt een inverse optimalisatiebenadering op een Markov-beslissingsproces om aan te tonen dat NFL-coaches doorgaans conservatieve risicopreferenties hanteren bij vierde-down-beslissingen, hoewel deze tolerantie toeneemt op het veld van de tegenstander en door de jaren heen.

Nathan Sandholtz, Lucas Wu, Martin Puterman, Timothy C. Y. Chan

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Het Grote Vierde Daling-Dilemma: Waarom NFL-coaches zo conservatief zijn (en wat dat over hen zegt)

Stel je voor dat je een voetbalcoach bent in de Amerikaanse NFL. Je staat op het veld, je team heeft de bal, en je moet een cruciale beslissing nemen: Vierde Daling.

Je hebt drie opties:

  1. Gaan voor het doel: Probeer die laatste paar meters te halen om de bal weer te krijgen. (Hoog risico, hoge beloning).
  2. Veldgoal proberen: Schiet op de paal voor 3 punten. (Middel risico, zekerheid als het lukt).
  3. Punten: Trap de bal weg naar de tegenstander. (Veilig, maar je geeft de bal op).

Jarenlang hebben statistici gezegd: "Coaches, jullie zijn te bang! Jullie moeten vaker gaan voor het doel, want wiskundig gezien win je meer wedstrijden als je dat doet." Maar coaches luisterden niet. Ze bleven te vaak punten.

In dit onderzoek kijken de auteurs niet naar wat de coaches doen, maar naar waarom ze dat doen. Ze gebruiken een slimme wiskundige truc om de "angst" van de coaches te meten.

De Wiskundige Truc: Omgekeerd Denken

Stel je voor dat je een detective bent. Je ziet een spoor van voetafdrukken in het zand.

  • Normale wiskunde (Voorspellen): "Als ik deze route loop, waar kom ik dan uit?"
  • Deze paper (Omgekeerd denken): "Ik zie deze voetafdrukken. Welke route moet ik hebben gelopen om precies hier te eindigen?"

De auteurs zeggen: "Laten we aannemen dat de coaches niet dom zijn. Ze nemen de beslissingen die zij het beste vinden. Maar wat vinden zij 'het beste'? Misschien maximaliseren ze niet hun gemiddelde winstkans, maar maximaliseren ze hun veiligheid."

Ze gebruiken een model genaamd een Markov Decision Process (MDP). Dat klinkt ingewikkeld, maar denk het simpelweg als een gokspel.

  • Bij elke beslissing is er een kans op een goed resultaat (een touchdown) en een kans op een slecht resultaat (balverlies).
  • Een "risicovrije" coach kijkt alleen naar het gemiddelde.
  • Een "angstige" coach kijkt naar het slechtst mogelijke scenario. Hij vraagt zich af: "Wat is het ergste dat kan gebeuren als ik ga voor het doel? En is dat erg genoeg om het niet te doen?"

De auteurs noemen dit het kwantiel. Het is als kijken naar de onderkant van een berg ijs. Hoe lager je kijkt (hoe meer je bang bent voor het ijs), hoe conservatiever je wordt.

Wat hebben ze ontdekt?

Door de beslissingen van coaches uit de laatste 9 jaar te analyseren, hebben ze een "risicoprofiel" voor de NFL getekend. Hier zijn de belangrijkste ontdekkingen, vertaald naar alledaagse taal:

1. De "Eigen Tuin" vs. "De Buurman"
Coaches zijn in hun eigen helft van het veld extreem bang. Ze gedragen zich alsof ze in een glazen huis wonen en bang zijn om iets te breken. Ze punten (trappen weg) bijna altijd.
Maar als ze in de helft van de tegenstander staan, worden ze veel dapperder. Ze zijn bereid om meer risico te nemen.

  • Analogie: Als je in je eigen tuin staat, durf je geen steen te gooien uit angst dat je raam breekt. Maar als je in de tuin van je buurman staat, gooi je misschien wel een steen, omdat je denkt: "Nou, als het misgaat, is het hun probleem."

2. De Angst neemt af (maar nog steeds te veel)
In de loop der jaren (van 2014 tot 2022) zijn coaches iets dapperder geworden. Ze durven vaker te gaan voor het doel. Maar ze zijn nog steeds veel te bang vergeleken met wat de statistieken zeggen dat ze zouden moeten doen. Ze spelen op de veilige kant, terwijl de winstkans voor het "dappere" spel veel groter is.

3. Het einde van de wedstrijd
Als een team al bijna zeker gaat verliezen (ze hebben een heel lage kans om te winnen), worden coaches in de vierde kwart plotseling heel dapper. Ze gaan alles op alles zetten. Dit is logisch: "We gaan sowieso verliezen, dus waarom niet proberen?" Maar zolang ze nog een kans hebben, blijven ze vaak te voorzichtig.

4. Elke coach is anders
Sommige coaches zijn echte "veiligheidsfreaks" (ze punten altijd), terwijl anderen (zoals Mike McCarthy of Sean McVay) veel meer risico nemen en dichter bij de wiskundige "optimale" beslissing zitten. Het is alsof sommige chauffeurs altijd met 30 km/u rijden, terwijl anderen netjes 50 km/u doen, zelfs als de weg leeg is.

Waarom is dit belangrijk?

Vroeger zeiden statistici: "Coaches, jullie zijn dom en moeten luisteren naar de cijfers."
Deze paper zegt: "Nee, coaches zijn niet dom. Ze zijn gewoon anders ingesteld."

Ze maximaliseren niet hun winstkans, maar ze maximaliseren hun veiligheid (of minimaliseren hun angst voor een ramp). Ze kijken naar het slechtst mogelijke scenario en kiezen daarvoor.

De les voor ons allemaal:
Of het nu gaat om voetbal, beleggen of het nemen van een nieuw baan: we kijken vaak naar het gemiddelde resultaat. Maar in de praktijk laten we ons vaak leiden door de angst voor het slechtst mogelijke resultaat. Deze studie laat zien dat we, als we onze "risicoprofielen" begrijpen, betere beslissingen kunnen nemen. Misschien moeten we niet alleen kijken naar wat we kunnen winnen, maar ook naar wat we durven te verliezen.

Kortom: De coaches zijn geen slechte wiskundigen; ze zijn gewoon heel voorzichtige mensen die liever een klein risico nemen op een grote teleurstelling dan een groot risico op een kleine teleurstelling. En dat is iets wat we allemaal herkennen.