Learning Risk Preferences in Markov Decision Processes: an Application to the Fourth Down Decision in the National Football League

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum NFL-Trainer so vorsichtig sind

Stell dir vor, du bist der Trainer einer American-Football-Mannschaft. Es ist die vierte und letzte Chance, um 10 Yards zu laufen und das Spiel zu gewinnen. Du hast zwei Optionen:

Risiko: Du versuchst, die 10 Yards zu laufen ("Go for it"). Wenn es klappt, hast du neue Chancen. Wenn es scheitert, gibt der Gegner den Ball direkt an der Stelle, wo du gestoppt wurdest.
Sicher: Du trittst einen Platzball (Punt) oder versuchst ein Field Goal. Damit gibst du den Ball ab, aber du stellst den Gegner schlechter auf.

Das Problem: Seit Jahrzehnten sagen Computermodelle den Trainern: "Wagt das Risiko! Es ist statistisch gesehen besser, zu laufen." Aber die Trainer tun es fast nie. Sie sind extrem vorsichtig. Warum?

Die Autoren dieses Papers sagen: "Vielleicht sind die Trainer gar nicht dumm oder falsch informiert. Vielleicht optimieren sie einfach etwas anderes als den Computer."

Die Detektivarbeit: Rückwärtsrechnen (Inverse Optimierung)

Stell dir vor, du siehst jemanden, der einen sehr seltsamen Weg durch einen Wald nimmt. Ein normaler Spaziergänger würde den kürzesten Weg nehmen. Dieser Mensch aber läuft immer um einen großen Stein herum, auch wenn er weiter weg ist.

Die alte Frage: "Warum nimmt er diesen Umweg?" (Vielleicht ist er verwirrt?)
Die neue Methode (Inverse Optimierung): "Okay, nehmen wir an, er ist ein Genie und wählt den perfekten Weg für sein Ziel. Was für ein Ziel muss er dann haben, dass dieser Umweg der beste Weg ist?"

Vielleicht will er gar nicht schnell sein Ziel erreichen, sondern er will vermeiden, auf einen Dorn zu treten (Risikovermeidung). Oder er will sicherstellen, dass er niemals auf den Boden fällt, egal wie lange der Weg dauert.

Genau das machen die Forscher hier. Sie gehen nicht davon aus, dass die Trainer Fehler machen. Sie gehen davon aus, dass die Trainer perfekt entscheiden, aber basierend auf einer geheimen Risikoregel, die wir noch nicht kennen.

Der "Angst-Filter" (Quantile)

Wie messen wir diese geheime Regel? Die Forscher nutzen ein Werkzeug namens Quantil.

Stell dir vor, du planst eine Reise.

Ein optimistischer Reisender schaut nur auf den besten Fall: "Wenn alles perfekt läuft, komme ich in 2 Stunden an." (Er ignoriert Staus).
Ein pessimistischer Reisender schaut auf den schlimmsten Fall: "Was ist, wenn ein Unfall passiert? Dann brauche ich 10 Stunden." (Er plant nur für das Schlimmste).

Die Forscher haben herausgefunden, dass NFL-Trainer wie extreme Pessimisten sind. Sie schauen nicht auf den Durchschnitt (was der Computer macht), sondern sie fragen sich: "Was ist das schlimmste Szenario, das mit einer gewissen Wahrscheinlichkeit eintreten kann?"

Der Computer sagt: "Im Durchschnitt bringt das Laufen mehr Punkte."
Der Trainer denkt: "Aber wenn es schiefgeht, bin ich in einer Katastrophe. Ich will das Worst-Case-Szenario minimieren."

Die Studie hat berechnet, dass Trainer so entscheiden, als würden sie nur den unteren Bereich (ca. 20–40 %) der möglichen Ergebnisse betrachten. Sie sind also sehr risikoscheu.

Die zwei Gesichter des Trainers

Interessanterweise haben die Forscher noch eine zweite Entdeckung gemacht, die wie ein Schutzschild funktioniert:

Auf dem eigenen Feld (Home): Hier sind die Trainer wie Panikmänner. Sie haben Angst, den Ball zu verlieren. Sie sind extrem vorsichtig und laufen fast nie.
Auf dem gegnerischen Feld (Away): Hier werden sie mutiger, fast wie Abenteurer. Wenn sie schon tief im feindlichen Gebiet sind, trauen sie sich eher, das Risiko einzugehen.

Warum? Weil der Schmerz eines Ballverlusts auf dem eigenen Feld (wo man weit weg vom Gegner ist) als schlimmer empfunden wird als auf dem gegnerischen Feld.

Der Wandel der Zeit

Die Studie zeigt auch, dass sich die Trainer langsam ändern. Früher waren sie noch ängstlicher. In den letzten Jahren (2014–2022) haben sie gelernt, etwas mutiger zu sein. Sie nähren sich langsam der "perfekten" mathematischen Lösung an, aber sie sind immer noch vorsichtiger als der Computer es vorschreiben würde.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass NFL-Trainer nicht "falsch" entscheiden, sondern dass sie extreme Sicherheitsfreaks sind, die sich vor dem absoluten Worst-Case-Szenario fürchten – besonders wenn sie auf ihrem eigenen Feld spielen – und dass wir diese Angst durch Rückwärtsrechnen messen können.

Die Moral der Geschichte: Manchmal ist es nicht wichtig, was die Leute tun, sondern was sie zu vermeiden versuchen. Und im Football ist das Vermeiden einer Katastrophe für Trainer wichtiger als der Gewinn von Punkten.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Learning Risk Preferences in Markov Decision Processes: An Application to the Fourth Down Decision in the National Football League" auf Deutsch.

1. Problemstellung

In der National Football League (NFL) treffen Trainer auf dem vierten Down (der letzten Chance, 10 Yards zu gewinnen) Entscheidungen, die in der Vergangenheit oft im Widerspruch zu den Empfehlungen statistischer Modelle standen. Während Modelle, die auf der Maximierung der Gewinnwahrscheinlichkeit (Win Probability) oder des erwarteten Punktevorteils basieren, oft ein aggressives „Go for it" (Versuch, die 10 Yards zu gewinnen) empfehlen, neigen Trainer dazu, konservativer zu handeln (z. B. durch einen Punt oder Field Goal).

Die zentrale Fragestellung dieses Papers ist nicht, ob Trainer „falsch" entscheiden, sondern welche impliziten Risikopräferenzen ihre beobachteten Entscheidungen erklären. Die Autoren gehen davon aus, dass Trainer zwar optimal handeln, aber nicht in Bezug auf den Erwartungswert (risikoneutral), sondern in Bezug auf ein unbekanntes Risikomaß. Ziel ist es, dieses Risikoprofil quantitativ zu schätzen.

2. Methodik

Das Paper entwickelt einen Rahmen für Inverse Optimierung (Inverse Optimization, IO) innerhalb von Markov-Entscheidungsprozessen (MDPs), um Risikopräferenzen zu lernen.

A. Modellierung als MDP

Das Spielgeschehen wird als MDP modelliert:

Zustände ( $S$ ): Umfassen Ballbesitz, Down, Yardlinie (in 10-Yard-Bändern) und Yards bis zum ersten Down.
Aktionen ( $A$ ): {GO (Go for it), FGA (Field Goal Attempt), PUNT}.
Übergangswahrscheinlichkeiten: Geschätzt aus Play-by-Play-Daten der Saisons 2014–2022.
Belohnung ( $r$ ): Definiert als Punktevorteil (Touchdown = 6,95 Punkte, Field Goal = 3, Safety = -2 für die eigene Mannschaft).

B. Das inverse Optimierungsproblem

Anstatt eine Politik zu finden, die einen bekannten Erwartungswert maximiert, wird das Problem umgekehrt:

Annahme: Die beobachteten Entscheidungen der Trainer sind optimal bezüglich einer unbekannten Zielfunktion.
Parametrisierung des Risikos: Anstelle des Erwartungswerts $E[C(X,a)]$ $E [C (X, a)]$ wird angenommen, dass Trainer den $\tau$ $τ$ -Quantil-Wert $Q_\tau[C(X,a)]$ $Q_{τ} [C (X, a)]$ der Verteilung des zukünftigen Spielwerts maximieren.
- Ein niedriger $\tau$ (z. B. 0,1) entspricht einer extrem risikoscheuen Haltung (Fokus auf das Worst-Case-Szenario).
- Ein hoher $\tau$ (z. B. 0,9) entspricht einer risikofreudigeren Haltung.
Ziel: Finde den Quantil-Parameter $\tau \in [0,1]$ , der die Diskrepanz zwischen den beobachteten Aktionen und den theoretisch optimalen Aktionen für dieses $\tau$ minimiert.

C. Schätzung und Regularisierung

Next-State Value: Die Verteilung des zukünftigen Werts wird basierend auf den empirischen Übergangswahrscheinlichkeiten und der Wertfunktion (erwartete Punkte über den Rest des Spiels) geschätzt.
Glättung: Da die empirischen Daten für seltene Situationen (z. B. „Go for it" in bestimmten Feldpositionen) verrauscht sind, werden die Quantil-Schätzungen mittels shape-constrained additive models (monoton fallende Glattheit bezüglich Yardlinie und Yards-to-go) regularisiert.
Partitionierung des Zustandsraums: Um unterschiedliche Risikopräferenzen in verschiedenen Spielsituationen zu erfassen, wird der Zustandsraum in zwei Regionen unterteilt:
1. Eigene Hälfte des Feldes (Own Half).
2. Gegener-Hälfte des Feldes (Opponent Half).
  Dies wird gewählt, da die 50-Yard-Linie eine natürliche Grenze zwischen Field-Goal-Versuchen und Punts darstellt.

D. Unsicherheitsquantifizierung

Um die Unsicherheit der Schätzungen zu bewerten, wird ein Bootstrap-Verfahren auf Spielebene angewendet. Dies berücksichtigt die Abhängigkeiten innerhalb von Spielzügen und zwischen Spielen.

3. Wichtige Beiträge

Inverse Optimierung für Quantil-MDPs: Das Paper ist laut Autoren das erste, das Inverse Optimierung direkt auf Quantil-MDPs anwendet, um Risikomaße zu lernen, anstatt nur Risikopräferenzen über Nutzenfunktionen (Utility Functions) abzuleiten.
Quantifizierung von Trainer-Risikopräferenzen: Es wird ein konkreter numerischer Wert ( $\hat{\tau}$ ) für die Risikotoleranz von NFL-Trainern abgeleitet, der direkt mit der Verteilung der zukünftigen Ergebnisse verknüpft ist.
Strukturierte Analyse: Die Methode erlaubt eine granulare Analyse, wie sich Risikopräferenzen je nach Feldposition, Siegchance, Saison und Trainer unterscheiden.

4. Ergebnisse

Die Analyse der Daten von 2014 bis 2022 liefert folgende Hauptergebnisse:

Generelle Risikoscheu: Trainer verhalten sich konsistent mit der Optimierung niedriger Quantile (konservative Risikopräferenzen). Ihr geschätzter $\hat{\tau}$ liegt deutlich unter dem, was ein risikoneutrales Modell (basierend auf Gewinnwahrscheinlichkeit) vorhersagen würde. Dies bestätigt, dass Trainer im Durchschnitt zu konservativ sind.
Feldpositionseffekt: Trainer zeigen eine höhere Risikotoleranz, wenn sie sich in der Hälfte des gegnerischen Feldes befinden, im Vergleich zu ihrer eigenen Hälfte.
- Im eigenen Feld ist das Verhalten fast aller Trainer risikoscheuer als die risikoneutrale Politik.
- Im gegnerischen Feld ist die Varianz der Risikopräferenzen größer; einige Trainer verhalten sich sogar risikofreudiger als die risikoneutrale Politik (insbesondere bei niedriger Gewinnwahrscheinlichkeit).
Zeitlicher Trend: Die durchschnittliche Risikotoleranz der Liga hat sich von 2014 bis 2022 erhöht. Trainer werden im Laufe der Zeit aggressiver, besonders in der gegnerischen Hälfte.
Einfluss der Siegchance:
- Bei sehr niedrigen Gewinnwahrscheinlichkeiten (< 0,05) nähern sich die Entscheidungen der Trainer den Empfehlungen des „4th Down Bot" (dem optimalen Modell) an, unabhängig vom Feldbereich. In aussichtslosen Situationen scheinen Trainer risikofreudiger zu werden.
- Im vierten Quartal (Q4) verhalten sich Trainer bei niedrigen Gewinnwahrscheinlichkeiten risikofreudiger als in den ersten drei Vierteln.
Leistungszusammenhang: Eine Regressionsanalyse zeigt einen positiven Zusammenhang zwischen dem geschätzten Risikoparameter $\hat{\tau}$ und den durchschnittlich gewonnenen Punkten auf dem vierten Down. Trainer, die risikofreudiger agieren (höheres $\hat{\tau}$ ), erzielen im Durchschnitt mehr Punkte, was darauf hindeutet, dass übermäßige Risikoscheu die Teamleistung beeinträchtigt.

5. Bedeutung und Fazit

Das Paper bietet einen neuen, datengesteuerten Ansatz, um das Entscheidungsverhalten von Trainern zu verstehen, indem es nicht nur feststellt, dass sie abweichen, sondern warum (nämlich aufgrund spezifischer Risikopräferenzen).

Für die Sportanalyse: Es liefert eine quantitative Metrik für „Risikobereitschaft", die über einfache Heuristiken hinausgeht.
Für Trainer und Teams: Die Ergebnisse könnten genutzt werden, um Trainer zu sensibilisieren, dass ihre konservative Haltung in bestimmten Situationen (insbesondere im eigenen Feld oder bei mittleren Gewinnchancen) suboptimal ist und die Siegchancen senkt.
Methodischer Fortschritt: Die vorgestellte Methode der inversen Optimierung für Quantil-MDPs ist auf andere Domänen übertragbar, in denen Entscheidungsträger unter Unsicherheit handeln und deren Risikoprofil unbekannt ist (z. B. Finanzen, Logistik).

Zusammenfassend zeigt die Studie, dass NFL-Trainer zwar rational handeln, aber ihre Definition von „Optimalität" stark von der Risikoscheu geprägt ist, die sich jedoch langsam in Richtung einer risikofreudigeren, datengestützten Strategie entwickelt.