Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence

Dit onderzoek toont aan dat het gebruik van een rollende-validatieprotocol in plaats van een statische splitsing de prestatieranking van PM10-voorspellingsmodellen omkeert, waarbij XGBoost minder betrouwbaar blijkt dan een persistentie-baseline, terwijl SARIMA consistent positieve vaardigheid behoudt.

Federico Garcia Crespi, Eduardo Yubero Funes, Marina Alfosea Simon

Gepubliceerd 2026-03-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Verborgen Valstrik in Voorspellingen: Waarom de "Slimste" Model soms de Slechtste is

Stel je voor dat je een weerman bent die de luchtkwaliteit (PM10) moet voorspellen voor de komende week. Je wilt weten of de lucht straks schoon is of vol stof, zodat je kunt adviseren: "Blijf binnen" of "Ga lekker fietsen".

Er zijn drie "profs" die je kunt inhuren om dit te doen:

  1. De Trager (Persistence): Deze zegt simpelweg: "Morgen zal het net zo zijn als vandaag."
  2. De Statistieker (SARIMA): Deze kijkt naar oude patronen en seizoenen.
  3. De AI-Genie (XGBoost): Een supermoderne machine learning-tool die enorme hoeveelheden data kan analyseren en complexe patronen ziet die mensen niet zien.

In de wetenschappelijke wereld wordt vaak gedacht dat de AI-Genie altijd de winnaar is. Maar dit onderzoek toont aan dat dit een groot misverstand kan zijn, afhankelijk van hoe je de proef neemt.

De Proef: Een Vaste Foto vs. Een Live Video

Het onderzoek doet iets heel slimme: het vergelijkt twee manieren om de modellen te testen.

1. De Vaste Foto (Static Split)
Stel je voor dat je een foto maakt van de afgelopen 5 jaar. Je deelt deze foto in tweeën: de eerste helft is de "leertijd" en de tweede helft is de "toets".

  • Wat er gebeurt: De AI-Genie leert van de eerste helft en scoort fantastisch op de tweede helft.
  • Het resultaat: De AI-Genie wint met gemak van de Trager en de Statistieker.
  • Het probleem: In het echte leven krijg je geen hele foto tegelijk. Je krijgt de informatie dag voor dag. Als je de AI-Genie alleen op een vaste foto test, heeft hij soms "geleerd" van dingen die hij op dat moment nog niet zou hebben kunnen zien (zoals het weer van morgen in de training). Dit is alsof je een speler laat oefenen met een antwoordboekje.

2. De Live Video (Rolling-Origin)
Nu doen we het echt. We spelen de video af, dag voor dag.

  • De regels: Elke maand maken we een nieuwe voorspelling. We trainen het model alleen met de data die we op dat moment al hebben. We kijken nooit in de toekomst.
  • Het resultaat: Hier gebeurt het wonderlijke. De AI-Genie (XGBoost) zakt door de vloer. Op korte termijn (1 tot 3 dagen) doet hij soms slechter dan de simpele Trager die zegt: "Het blijft zoals het is."
  • De verrassing: De Statistieker (SARIMA) blijkt juist de meest betrouwbare te zijn. Deze blijft consistent goed presteren, zelfs als de AI-Genie in de war raakt.

De Grootste Les: De "Zichtbaarheidslimiet"

De auteurs introduceren een nieuw concept: de Zichtbaarheidslimiet (in het paper Predictability Horizon of H*).
Dit is het aantal dagen vooruit dat je kunt voorspellen voordat je model net zo goed (of slecht) is als de simpele Trager.

  • Bij de Vaste Foto: De AI-Genie zag eruit alsof hij 7 dagen vooruit kon kijken.
  • Bij de Live Video: De AI-Genie faalde op dag 1 en 3. Hij kon eigenlijk niet beter voorspellen dan de simpele Trager op de momenten die echt belangrijk zijn voor beslissingen.

Waarom is dit belangrijk voor jou?

Stel je voor dat je een auto koopt.

  • De verkoper laat je een video zien van de auto die perfect rijdt op een gesloten circuit (de Vaste Foto).
  • Maar als je de auto in de regen op een drukke weg rijdt (de Live Video situatie), blijkt hij te slippen en te falen.

Dit onderzoek zegt: "Kijk niet alleen naar de mooie video van de verkoper."

Voor luchtkwaliteitsvoorspellingen betekent dit:

  1. Complexiteit is niet altijd beter: Een heel ingewikkeld AI-model is niet per se beter dan een simpel statistisch model als het gaat om dagelijkse beslissingen.
  2. Testen moet realistisch zijn: Als je modellen test, moet je ze testen alsof ze in het echt werken (dag na dag, zonder in de toekomst te kijken). Anders krijg je een vals gevoel van veiligheid.
  3. De simpele Trager is een sterke tegenstander: In een wereld waar de lucht vaak hetzelfde blijft als de dag ervoor, is het soms slimmer om gewoon uit te gaan van "het blijft zoals het is" dan om te vertrouwen op een complexe berekening die fouten maakt.

Kortom: Soms is de "slimme" computer een beetje te slim voor zijn eigen bestwil en raakt hij in de war. De ouderwetse, betrouwbare statistiek wint het in dit geval, omdat hij niet probeert te raden wat er morgen is, maar zich houdt aan wat hij zeker weet.