Learning Risk Preferences in Markov Decision Processes: an Application to the Fourth Down Decision in the National Football League

Diese Studie nutzt eine inverse Optimierungsansatz auf Basis von Markov-Entscheidungsprozessen, um zu zeigen, dass NFL-Trainer bei Fourth-Down-Entscheidungen tendenziell konservative Risikopräferenzen verfolgen, deren Toleranz jedoch mit fortschreitender Zeit und in der gegnerischen Feldhälfte zunimmt.

Nathan Sandholtz, Lucas Wu, Martin Puterman, Timothy C. Y. Chan

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum NFL-Trainer so vorsichtig sind

Stell dir vor, du bist der Trainer einer American-Football-Mannschaft. Es ist die vierte und letzte Chance, um 10 Yards zu laufen und das Spiel zu gewinnen. Du hast zwei Optionen:

  1. Risiko: Du versuchst, die 10 Yards zu laufen ("Go for it"). Wenn es klappt, hast du neue Chancen. Wenn es scheitert, gibt der Gegner den Ball direkt an der Stelle, wo du gestoppt wurdest.
  2. Sicher: Du trittst einen Platzball (Punt) oder versuchst ein Field Goal. Damit gibst du den Ball ab, aber du stellst den Gegner schlechter auf.

Das Problem: Seit Jahrzehnten sagen Computermodelle den Trainern: "Wagt das Risiko! Es ist statistisch gesehen besser, zu laufen." Aber die Trainer tun es fast nie. Sie sind extrem vorsichtig. Warum?

Die Autoren dieses Papers sagen: "Vielleicht sind die Trainer gar nicht dumm oder falsch informiert. Vielleicht optimieren sie einfach etwas anderes als den Computer."

Die Detektivarbeit: Rückwärtsrechnen (Inverse Optimierung)

Stell dir vor, du siehst jemanden, der einen sehr seltsamen Weg durch einen Wald nimmt. Ein normaler Spaziergänger würde den kürzesten Weg nehmen. Dieser Mensch aber läuft immer um einen großen Stein herum, auch wenn er weiter weg ist.

  • Die alte Frage: "Warum nimmt er diesen Umweg?" (Vielleicht ist er verwirrt?)
  • Die neue Methode (Inverse Optimierung): "Okay, nehmen wir an, er ist ein Genie und wählt den perfekten Weg für sein Ziel. Was für ein Ziel muss er dann haben, dass dieser Umweg der beste Weg ist?"

Vielleicht will er gar nicht schnell sein Ziel erreichen, sondern er will vermeiden, auf einen Dorn zu treten (Risikovermeidung). Oder er will sicherstellen, dass er niemals auf den Boden fällt, egal wie lange der Weg dauert.

Genau das machen die Forscher hier. Sie gehen nicht davon aus, dass die Trainer Fehler machen. Sie gehen davon aus, dass die Trainer perfekt entscheiden, aber basierend auf einer geheimen Risikoregel, die wir noch nicht kennen.

Der "Angst-Filter" (Quantile)

Wie messen wir diese geheime Regel? Die Forscher nutzen ein Werkzeug namens Quantil.

Stell dir vor, du planst eine Reise.

  • Ein optimistischer Reisender schaut nur auf den besten Fall: "Wenn alles perfekt läuft, komme ich in 2 Stunden an." (Er ignoriert Staus).
  • Ein pessimistischer Reisender schaut auf den schlimmsten Fall: "Was ist, wenn ein Unfall passiert? Dann brauche ich 10 Stunden." (Er plant nur für das Schlimmste).

Die Forscher haben herausgefunden, dass NFL-Trainer wie extreme Pessimisten sind. Sie schauen nicht auf den Durchschnitt (was der Computer macht), sondern sie fragen sich: "Was ist das schlimmste Szenario, das mit einer gewissen Wahrscheinlichkeit eintreten kann?"

  • Der Computer sagt: "Im Durchschnitt bringt das Laufen mehr Punkte."
  • Der Trainer denkt: "Aber wenn es schiefgeht, bin ich in einer Katastrophe. Ich will das Worst-Case-Szenario minimieren."

Die Studie hat berechnet, dass Trainer so entscheiden, als würden sie nur den unteren Bereich (ca. 20–40 %) der möglichen Ergebnisse betrachten. Sie sind also sehr risikoscheu.

Die zwei Gesichter des Trainers

Interessanterweise haben die Forscher noch eine zweite Entdeckung gemacht, die wie ein Schutzschild funktioniert:

  1. Auf dem eigenen Feld (Home): Hier sind die Trainer wie Panikmänner. Sie haben Angst, den Ball zu verlieren. Sie sind extrem vorsichtig und laufen fast nie.
  2. Auf dem gegnerischen Feld (Away): Hier werden sie mutiger, fast wie Abenteurer. Wenn sie schon tief im feindlichen Gebiet sind, trauen sie sich eher, das Risiko einzugehen.

Warum? Weil der Schmerz eines Ballverlusts auf dem eigenen Feld (wo man weit weg vom Gegner ist) als schlimmer empfunden wird als auf dem gegnerischen Feld.

Der Wandel der Zeit

Die Studie zeigt auch, dass sich die Trainer langsam ändern. Früher waren sie noch ängstlicher. In den letzten Jahren (2014–2022) haben sie gelernt, etwas mutiger zu sein. Sie nähren sich langsam der "perfekten" mathematischen Lösung an, aber sie sind immer noch vorsichtiger als der Computer es vorschreiben würde.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass NFL-Trainer nicht "falsch" entscheiden, sondern dass sie extreme Sicherheitsfreaks sind, die sich vor dem absoluten Worst-Case-Szenario fürchten – besonders wenn sie auf ihrem eigenen Feld spielen – und dass wir diese Angst durch Rückwärtsrechnen messen können.

Die Moral der Geschichte: Manchmal ist es nicht wichtig, was die Leute tun, sondern was sie zu vermeiden versuchen. Und im Football ist das Vermeiden einer Katastrophe für Trainer wichtiger als der Gewinn von Punkten.