VisiFold: Long-Term Traffic Forecasting via Temporal Folding Graph and Node Visibility

Each language version is independently generated for its own context, not a direct translation.

Het Probleem: De "Stapel Foto's" die te zwaar wordt

Stel je voor dat je de verkeersdrukte in een grote stad wilt voorspellen. Je hebt duizenden sensoren (zoals camera's of inductielussen) die elke seconde een foto maken van het verkeer.

De oude manier om dit te doen, was als het maken van een video van duizenden losse foto's.

Het probleem: Als je wilt voorspellen wat er over een uur gebeurt (kortetermijn), is dat makkelijk. Maar als je wilt voorspellen wat er over 8 uur gebeurt (langetermijn), moet je die video heel lang maken.
De kosten: De computer moet elke foto apart bekijken en dan proberen ze allemaal aan elkaar te plakken. Dit is als proberen een video te streamen in 4K-kwaliteit op een oude smartphone: het wordt traag, het kost enorm veel batterij (rekenkracht) en de kwaliteit gaat achteruit.
De fout: De computer raakt de draad kwijt tussen de eerste en de laatste foto. Het verband tussen "nu" en "over 8 uur" wordt verbroken door alle tussentijdse stapjes.

De Oplossing: VisiFold (Het "Vouwen" van de Tijd)

De onderzoekers van VisiFold zeggen: "Waarom maken we geen video van losse foto's? Laten we de tijd gewoon in één foto vouwen."

Hier zijn de twee belangrijkste ideeën, vertaald naar alledaagse situaties:

1. De Tijds-vouwing (Temporal Folding)

In plaats van een sensor die 100 foto's achter elkaar maakt, nemen we die 100 foto's en vouwen we ze tot één dikke, rijke foto.

De analogie: Stel je voor dat je in plaats van een week lang elke dag een dagboek te schrijven, alle gebeurtenissen van die week samenvat in één enkel, super-dicht boekje.
Het effect: De computer hoeft niet meer 100 keer te rekenen voor 100 momenten. Hij kijkt naar één moment dat alle informatie van die 100 momenten bevat. Dit bespaart enorm veel rekenkracht en voorkomt dat de computer de draad kwijtraakt.

2. Zichtbaarheid van de Nodes (Node Visibility)

Nu hebben we het probleem opgelost voor de tijd, maar er is nog een probleem: er zijn nog steeds duizenden sensoren (nodes) in de stad. Als je ze allemaal tegelijk laat praten, wordt het een chaos en te duur.

VisiFold gebruikt hier een slimme truc: Het "Blind" Spel.

De analogie: Stel je voor dat je een vergadering hebt met 100 mensen. Als iedereen tegelijk praat, hoor je niets.
- Oude methode: Iedereen moet naar iedereen luisteren.
- VisiFold-methode: We laten tijdens de training 80% van de mensen even "onzichtbaar" zijn (ze doen alsof ze er niet zijn). De overige 20% moet dan wel goed luisteren naar elkaar.
Waarom doen we dit?
1. Snelheid: Mensen die praten = minder rekenwerk.
2. Slimmer leren: Als je alleen naar je directe buren luistert, leer je niet veel. Door willekeurig mensen "onzichtbaar" te maken, wordt de computer gedwongen om te kijken naar mensen die verder weg wonen. Het leert de computer dat verkeer in de ene wijk soms lijkt op verkeer in een heel andere wijk, zelfs als ze niet naast elkaar liggen.
3. Robuustheid: Het voorkomt dat de computer "cheat" door alleen naar de dichtstbijzijnde sensor te kijken. Het moet echt de patronen begrijpen.

Wat levert dit op?

Sneller dan licht: De training is tot 7 keer sneller en het kost 4 keer minder geheugen dan de beste bestaande methoden.
Beter resultaat: Zelfs als je 80% van de sensoren "uitzet" tijdens het leren, presteert het model beter dan de oude modellen die alles proberen te zien.
Langetermijnvisie: Omdat het model niet meer vastloopt in de "stapel foto's", kan het veel betrouwbaarder voorspellen wat er over een uur, of zelfs later, gaat gebeuren.

Samenvatting in één zin

VisiFold is als het veranderen van een traag, zwaar video-bestand in een compacte, slim samengevatte foto, waarbij we tijdens het leren bewust een deel van de sensoren "uit" zetten om de computer te dwingen slimmer en sneller te denken.

Dit maakt het mogelijk om in de toekomst veel grotere steden en langere tijdsperiodes te voorspellen zonder dat de computer in de war raakt of te veel energie verbruikt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Verkeersvoorspelling is een hoeksteen van intelligente vervoerssystemen. Hoewel bestaande onderzoek veel vooruitgang heeft geboekt in korte-termijnvoorspelling (minder dan 1 uur), blijft lange-termijnvoorspelling een grote uitdaging. Bestaande methoden, die vaak gebaseerd zijn op ruimtelijk-temporele grafieken (STGNNs of Transformer-achtige modellen), lopen tegen twee fundamentele beperkingen aan wanneer de voorspellingshorizon wordt verlengd:

Snapshot-stacking inflatie: Traditionele modellen behandelen de tijd als een reeks afzonderlijke "snapshots". Om een lange horizon te voorspellen, moeten deze snapshots gestapeld worden, wat leidt tot een exponentiële toename van het computerverbruik en het geheugengebruik.
Cross-step fragmentatie: Ruimtelijke en temporele afhankelijkheden worden vaak losgekoppeld (gedecoupled). Informatie wordt binnen een snapshot geaggregeerd (ruimtelijk) en vervolgens over de tijd verspreid (temporeel). Dit leidt tot een verlies van lange-termijn afhankelijkheden en complexe, gefragmenteerde boodschappenoverdracht tussen tijdstappen.

De huidige state-of-the-art modellen kunnen deze resource-vereisten niet aan voor lange-termijn scenario's zonder aanzienlijke nauwkeurigheidsverlies of onhaalbare rekentijden.

Methodologie: VisiFold

De auteurs stellen VisiFold voor, een nieuw raamwerk dat de beperkingen in zowel de temporele als ruimtelijke dimensie doorbreekt. De kern van de methode bestaat uit twee innovaties:

1. Temporal Folding Graph (TFG)

In plaats van een reeks snapshots te gebruiken, "vouwt" VisiFold alle temporele attributen van een knooppunt samen in één enkel, verrijkt attribuutvector.

Mechanisme: Alle waarden van een sensor over een tijdsvenster ( $T$ ) worden samengevoegd tot één "TF-token".
Voordeel: Dit elimineert de noodzaak voor kruis-stap interacties (cross-step message passing). Temporele dynamiek wordt nu binnen het knooppunt zelf gemodelleerd, terwijl ruimtelijke afhankelijkheden nog steeds tussen de knooppunten worden uitgewisseld.
Resultaat: De complexiteit daalt van $O(N \cdot T)$ naar $O(N)$ , wat de "snapshot-stacking inflatie" volledig opheft.

2. Node Visibility (Knooppuntzichtbaarheid)

Zelfs met TFG blijft het grote aantal knooppunten in stedelijke netwerken een bottleneck voor resources. VisiFold introduceert een mechanisme om de zichtbaarheid van knooppunten te beperken tijdens het trainen.

Node-level Masking: Een willekeurig percentage van de knooppunten (bijv. 80%) wordt volledig verborgen voor de encoder. Dit vermindert de invoergrootte en fungeert als een regularisator die voorkomt dat het model te sterk afhankelijk wordt van directe buren (position-dependent bias).
Subgraph Sampling: De resterende knooppunten worden opgedeeld in kleinere, willekeurig gesamplede subgrafieken. Dit verhoogt de parallelisatie en verlaagt de kwadratische complexiteit van de Transformer-attention mechanismen.
Belangrijk: Deze masking wordt alleen toegepast tijdens het trainen; tijdens de inferentie worden alle knooppunten gebruikt.

Architectuur

Het model gebruikt een Transformer-encoder als backbone. De invoer bestaat uit:

TF-tokens (samengevoegde temporele data).
Ruimtelijke embeddings (leerbare vectoren per knooppunt).
Temporele embeddings (tijd van de dag en dag van de week).
Na masking en sampling worden de data verwerkt door multi-head self-attention lagen, gevolgd door een MLP-head voor de uiteindelijke voorspelling.

Belangrijkste Bijdragen

Herdefinitie van de input-representatie: De auteurs identificeren dat de traditionele ruimtelijk-temporele grafiekrepresentatie inherent beperkend is voor lange-termijn voorspelling en stellen de Temporal Folding Graph voor als een oplossing.
Efficiëntie door Folding: Door temporele data te comprimeren in knooppunten, wordt de noodzaak voor complexe temporele modules en kruis-stap communicatie verwijderd, wat de rekentijd drastisch verlaagt.
Node Visibility: Een nieuw mechanisme (masking + subgraph sampling) dat de schaalbaarheid van grafische modellen voor grote netwerken mogelijk maakt en als regularisator fungeert.
SOTA Prestaties: VisiFold bereikt state-of-the-art resultaten op lange-termijn taken, terwijl het tegelijkertijd de resource-vereisten met een orde van grootte verlaagt.

Resultaten

De prestaties zijn getest op drie real-world datasets: PEMS04, PEMS08 en SEATTLE, met voorspellingshorizonten van 24, 36 en 48 tijdstappen.

Nauwkeurigheid: VisiFold overtreft sterke baselines (zoals STID, STAEformer, SSTBAN) op alle datasets en tijdstappen. Bijvoorbeeld, op PEMS04 (24 stappen) behaalt het een RMSE van 31.36, wat beter is dan de tweede beste methode (31.57).
Resource Efficiency:
- Trainingstijd: Tot 7.8x sneller dan de beste concurrenten.
- Inferentietijd: Tot 18.5x sneller.
- GPU-geheugen: Verbruikt 15.7x minder geheugen dan geavanceerde baselines.
Robuustheid: Zelfs met een zeer hoge masking-ratio van 80% (waarbij 80% van de knooppunten tijdens het trainen onzichtbaar is), behoudt het model zijn prestatievoordeel en verbetert zelfs de stabiliteit.
Ablatie-studies:
- Ruimtelijke embeddings bleken de belangrijkste bijdrage aan de nauwkeurigheid te leveren.
- Het "Node-level Masking" bleek effectiever dan het simpelweg op nul zetten van attributen (AllZero), omdat het de knooppunten volledig uit de encoder verwijdert.
- Het gebruik van een "Leader token" voor subgraph-interactie leverde geen extra winst op, wat suggereert dat het beperken van de zichtbaarheid juist helpt om overfitting op ruis te voorkomen.

Betekenis en Impact

VisiFold is een doorbraak voor lange-termijn verkeersvoorspelling.

Schalbaarheid: Het maakt het mogelijk om voorspellingen te doen voor veel langere tijdsperiodes dan voorheen haalbaar was, zonder dat de rekentijd of het geheugenprobleem onoplosbaar wordt.
Real-time toepasbaarheid: Met inferentietijden van minder dan één seconde is het model geschikt voor real-time toepassingen en edge-deployment in intelligente vervoerssystemen.
Paradigmaverschuiving: Het paper daagt de traditionele aanname uit dat een volledige topologische kennis van het netwerk noodzakelijk is. Door de zichtbaarheid te beperken, leert het model robuustere patronen die niet afhankelijk zijn van directe buren, wat beter aansluit bij de fysieke realiteit van verkeersstromen (waarbij niet-geadjacenteerde locaties soms vergelijkbare patronen vertonen).

Kortom, VisiFold biedt een efficiënt en nauwkeurig raamwerk dat de weg vrijmaakt voor realistischere, langere en grootschaligere verkeersvoorspellingen.