Learning with the Nash-Sutcliffe loss

Diese Arbeit etabliert eine entscheidungstheoretische Grundlage für die Nash-Sutcliffe-Effizienz, indem sie die Nash-Sutcliffe-Verlustfunktion als strikt konsistent für einen gewichteten Mittelwert nachweist und damit eine fundierte Methode zur Schätzung von Modellen und zur Bewertung von Vorhersagen in großen Datensätzen mit stationären Zeitreihen bereitstellt.

Hristos Tyralis, Georgia Papacharalampous

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Die große Entdeckung: Warum "Durchschnitt" nicht immer "Durchschnitt" ist

Stellen Sie sich vor, Sie sind ein Wettervorhersage-Experte. Sie haben 100 verschiedene Städte, und für jede Stadt wollen Sie vorhersagen, wie viel Regen morgen fallen wird. Um zu prüfen, ob Ihre Vorhersagen gut sind, nutzen Sie einen berühmten Maßstab, den NSE (Nash-Sutcliffe-Effizienz). Dieser Maßstab ist in der Hydrologie und Umweltwissenschaft seit Jahrzehnten der "Goldstandard". Er sagt Ihnen: "Hey, deine Vorhersage ist besser als wenn du einfach nur den langjährigen Durchschnitt (das Klima) genommen hättest."

Das Problem:
Bisher haben die Wissenschaftler einen Fehler gemacht. Sie haben ihre Modelle trainiert, um den Mittelwert (den Durchschnitt) zu minimieren – so wie man es in der Schule lernt. Aber dann haben sie die Modelle mit dem NSE bewertet.

Das ist wie bei einem Koch:

  • Die Aufgabe: Der Koch soll ein Gericht kochen, das den Geschmack des Essers perfekt trifft.
  • Das Training: Der Koch trainiert jedoch nur darauf, die Menge der Zutaten so genau wie möglich zu wiegen (Mittelwert minimieren).
  • Die Bewertung: Am Ende wird das Gericht jedoch nicht nach der Genauigkeit der Waage bewertet, sondern danach, wie gut es schmeckt (NSE).

Das Ergebnis? Der Koch (das Modell) liefert zwar perfekte Mengen, aber das Essen schmeckt vielleicht nicht optimal, weil "Menge" und "Geschmack" nicht dasselbe sind.

Die Lösung: Der "Nash-Sutcliffe-Verlust"

Die Autoren dieser Studie haben etwas Geniales entdeckt: Der NSE bewertet eigentlich nicht den einfachen Durchschnitt. Er bewertet etwas anderes, das sie den "Nash-Sutcliffe-Funktional" nennen.

Die Analogie des gewichteten Durchschnitts:
Stellen Sie sich vor, Sie berechnen den Durchschnittspreis von Äpfeln in einem Markt.

  1. Der normale Durchschnitt (MSE): Sie nehmen alle Preise, addieren sie und teilen durch die Anzahl. Jeder Apfel zählt gleich viel.
  2. Der Nash-Sutcliffe-Durchschnitt: Hier bekommen die Äpfel unterschiedliche Gewichte.
    • Wenn ein Markttag sehr ruhig ist (wenig Schwankung im Preis), bekommt dieser Tag ein hohes Gewicht.
    • Wenn ein Markttag chaotisch ist (viele wilde Preisschwankungen), bekommt er ein geringeres Gewicht.

Der NSE ist also wie ein Sensibler Richter, der besonders auf die ruhigen, vorhersehbaren Tage achtet und weniger auf die chaotischen. Wenn Sie Ihr Modell nur auf den "normalen Durchschnitt" trainieren, ignorieren Sie die Feinheiten, die der NSE-Richter so wichtig findet.

Was haben die Autoren getan?

Sie haben eine neue Art des Trainings erfunden, die sie "Nash-Sutcliffe-Regression" nennen.

  • Früher: Man hat Modelle trainiert, um den Fehler (MSE) zu minimieren. Das ist wie das Trainieren eines Sprinters, damit er die Strecke in 10 Sekunden läuft, aber man bewertet ihn dann daran, wie gut er einen Marathon läuft.
  • Jetzt: Man trainiert das Modell direkt mit dem "Nash-Sutcliffe-Verlust". Das ist wie das Trainieren eines Sprinters, damit er genau das tut, was im Marathon bewertet wird.

Das Ergebnis:
In ihren Tests (mit simulierten Daten und echten Flussdaten aus Frankreich) haben sie gezeigt:

  • Wenn man das neue Training nutzt, ist der NSE-Wert (die Bewertung) viel besser.
  • Das Modell lernt, die Daten so vorherzusagen, wie der NSE es eigentlich "sehen" will.
  • Besonders bei Daten, die nicht perfekt normalverteilt sind (wie echte Regenfälle oder Temperatur), macht dieser Unterschied einen riesigen Unterschied.

Warum ist das wichtig für die Welt?

Bisher haben viele Forscher Modelle verglichen, die eigentlich nicht vergleichbar waren. Sie haben Modelle trainiert, die auf "Durchschnitt" optimiert waren, und dann gesagt: "Schau, Modell A hat einen besseren NSE als Modell B!"

Die Autoren sagen: Stopp! Das ist unfair. Wenn Sie den NSE als Bewertungsmaßstab nutzen, müssen Sie auch mit dem Nash-Sutcliffe-Verlust trainieren. Sonst vergleichen Sie Äpfel mit Birnen.

Zusammenfassung in einem Satz:
Die Autoren haben bewiesen, dass der beliebte NSE-Maßstab eigentlich eine ganz andere Zielgröße (einen gewichteten Durchschnitt) sucht als der normale Durchschnitt, und sie haben eine neue Methode entwickelt, um Modelle genau auf dieses Ziel hinzutrainieren – was zu viel besseren Vorhersagen für Wasser, Wetter und Umwelt führt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →