Optimal strategies in Markov decision processes with finitely additive evaluations

Das Papier widerlegt die Vermutung, dass in Markov-Entscheidungsprozessen mit endlich additiven Bewertungen immer eine optimale Strategie existiert, indem es ein Gegenbeispiel konstruiert, bei dem eine speziell gestaltete Aggregationsladung weder eine reine noch eine randomisierte optimale Strategie zulässt.

János Flesch, Arkadi Predtetchinski, William D Sudderth, Xavier Venel

Veröffentlicht 2026-03-05
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Dilemma des unendlichen Spiels: Warum es manchmal keine perfekte Strategie gibt

Stellen Sie sich vor, Sie spielen ein unendliches Brettspiel. In jedem Zug erhalten Sie eine Belohnung (oder einen Verlust). Ihr Ziel ist es, über die Ewigkeit hinweg die bestmögliche Gesamtsumme zu erzielen.

Normalerweise denken wir dabei an zwei Dinge:

  1. Der Durchschnitt: Was bekomme ich im Schnitt pro Zug?
  2. Der Abzinsung: Was bekomme ich jetzt, ist wichtiger als das, was ich in 100 Jahren bekomme (wie bei Zinsen).

In diesem Papier untersuchen die Autoren eine viel seltsamere Art, das Spiel zu bewerten. Sie nutzen ein mathematisches Werkzeug, das sie „Aggregationsladung" nennen. Stellen Sie sich diese Ladung wie einen sehr speziellen Richter vor, der über das Spiel urteilt.

Der spezielle Richter (Die „Aggregationsladung")

Dieser Richter hat eine seltsame Regel: Er gibt jedem einzelnen Zug null Gewicht. Er schaut sich nicht den 1. Zug an, nicht den 100. und nicht den 1.000.000. Er schaut sich das Gesamtbild an.

  • Wenn Sie in den ungeraden Zügen gewinnen und in den geraden verlieren, zählt er das als 50/50.
  • Er ignoriert die Zeit. Für ihn ist der 1. Zug genauso wichtig wie der 1.000.000. Zug.

Bisher wussten die Mathematiker: Wenn dieser Richter eine bestimmte „vernünftige" Regel befolgt (die sogenannte „Zeitwert des Geldes"-Regel), dann gibt es immer eine perfekte Strategie. Man kann einfach eine feste Regel aufstellen (z. B. „Immer Zug A machen"), und man gewinnt maximal.

Die große Frage

Die Autoren stellten sich die Frage: Gilt das immer? Gibt es für jeden möglichen Richter und jedes Spiel eine perfekte Strategie?

Die Antwort, die sie gefunden haben, ist ein hartes „Nein".

Die Geschichte vom „Gerade-oder-Ungerade"-Spiel

Um das zu beweisen, konstruierten sie ein kleines, aber perfides Spiel (das „Even-or-Odd"-MDP):

  • Das Spielfeld: Es gibt drei Räume. Sie starten in Raum 1.
  • Die Wahl: In Raum 1 müssen Sie sich entscheiden:
    • Option A (T): Sie bekommen 1 Punkt jetzt, aber im nächsten Zug (Raum 2) bekommen Sie 0.
    • Option B (B): Sie bekommen 0 jetzt, aber im nächsten Zug (Raum 3) bekommen Sie 1.
  • Der Zyklus: Nach dem nächsten Zug landen Sie wieder in Raum 1 und müssen wieder wählen.

Das Spiel ist also ein ewiger Wechsel: 1-0-1-0-1-0... oder 0-1-0-1-0-1...

Das Problem:
Der Richter, den die Autoren sich ausgedacht haben, ist ein „Spalter". Er besteht aus zwei Teilen:

  1. Teil 1 (Der Ungerade-Richter): Er schaut nur auf die ungeraden Züge (1, 3, 5...). Er will, dass Sie dort gewinnen.
  2. Teil 2 (Der Gerade-Richter): Er schaut nur auf die geraden Züge (2, 4, 6...). Aber er ist so konstruiert, dass er eine sehr spezielle Art von Gewinn bevorzugt, die schwer zu erreichen ist.

Das Dilemma:

  • Wenn Sie immer Option A wählen (1, 0, 1, 0...), gewinnen Sie perfekt für den Ungeraden-Richter. Aber für den Geraden-Richter ist das eine Katastrophe, weil Sie in den geraden Zügen immer 0 bekommen.
  • Wenn Sie immer Option B wählen (0, 1, 0, 1...), ist es umgekehrt.
  • Wenn Sie wechseln (A, B, A, B...), bekommen Sie immer 0,5 im Durchschnitt. Das ist besser als nichts, aber nicht das Maximum.

Der Clou: Warum es keine Lösung gibt

Die Autoren zeigen, dass Sie versuchen können, den Richter zu täuschen, indem Sie Ihre Strategie langsam ändern.

  • Sie könnten sagen: „Ich mache 99% der Zeit Option A, aber ganz selten Option B." Das bringt Ihnen fast die maximale Punktzahl für den ersten Teil des Richters.
  • Aber sobald Sie das tun, verliert der zweite Teil des Richters ein wenig von seiner Zufriedenheit.
  • Wenn Sie versuchen, den zweiten Teil zufriedener zu machen, verliert der erste Teil wieder Punkte.

Es ist wie ein ewiges Hin und Her:
Stellen Sie sich vor, Sie versuchen, einen Ball so zu werfen, dass er gleichzeitig zwei verschiedene Ziele trifft, die sich aber gegenseitig ausschließen. Je näher Sie dem einen Ziel kommen, desto weiter entfernen Sie sich vom anderen.

Das Schlimmste ist: Sie können sich der perfekten Punktzahl (1,0) beliebig nah annähern, aber Sie werden sie niemals erreichen.

  • Strategie A gibt Ihnen 0,99.
  • Strategie B gibt Ihnen 0,999.
  • Strategie C gibt Ihnen 0,9999.

Es gibt immer eine bessere Strategie als die vorherige, aber es gibt keine, die die beste ist. Es gibt keinen „Sieg", der unangefochten ist.

Was bedeutet das für uns?

In der Welt der Mathematik und der Wirtschaft (Markov-Entscheidungsprozesse) haben wir oft angenommen, dass es immer eine „beste Lösung" gibt, wenn wir nur lange genug suchen.

Diese Arbeit zeigt uns eine tiefe Wahrheit: Manchmal gibt es keine perfekte Lösung.
Wenn die Art und Weise, wie wir Erfolg messen (unsere „Bewertungsregel"), zu komplex oder zu widersprüchlich ist, dann kann es sein, dass wir uns in einer endlosen Spirale von „fast perfekt" befinden, ohne jemals das Ziel zu erreichen.

Die Moral der Geschichte:
Manchmal ist die Suche nach dem absolut perfekten Plan vergeblich, weil die Regeln des Spiels selbst so konstruiert sind, dass sie jede feste Regel unterlaufen. Es gibt Momente, in denen das „Beste" nur ein theoretischer Horizont ist, den man nie erreicht, egal wie schnell man läuft.