Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat Chronos-T5 een super-intelligente voorspeller is, een soort "orakel" dat kijkt naar historische data (zoals de temperatuur, stroomverbruik of beurskoersen) en probeert te zeggen wat er morgen gaat gebeuren. Dit model is enorm groot en complex, maar tot nu toe was het een zwarte doos: we wisten niet hoe het precies dacht of welke gedachten het had.

Deze paper is als een röntgenfoto van dat orakel. De onderzoekers hebben een nieuwe techniek gebruikt (genaamd Sparse Autoencoders) om de interne "gedachten" van het model te vertalen naar begrijpelijke concepten.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het probleem: Een zwart doosje

Stel je voor dat je een auto hebt die perfect rijdt, maar je hebt geen idee hoe de motor werkt. Je ziet alleen dat hij rijdt. Zo was het met deze tijdreeks-modellen. Ze werken goed, maar we weten niet welke interne "knoppen" ze gebruiken om hun voorspellingen te doen.

2. De oplossing: De "Gedachten-Vertaler"

De onderzoekers hebben een tool gebruikt die werkt als een vertaler voor de hersenen van de computer.

Het model denkt in duizenden wazige, over elkaar heen liggende signalen.
De tool (de Sparse Autoencoder) scheidt deze signalen op en zegt: "Ah, dit specifieke signaal betekent 'een plotselinge stijging in de temperatuur'", en "dit andere betekent 'een trage, zware golfbeweging'".
Ze hebben dit gedaan voor zes verschillende lagen in het model, alsof ze kijken naar de hersenen van het model van buiten (laag 1) tot diep van binnen (laag 24).

3. De grote ontdekking: De "Midden-Leg" is de held

Dit is het meest verrassende deel van het verhaal. Je zou denken dat de laatste laag van het model (waar de "slimste" en meest samengevatte informatie zit) het belangrijkst is.

Maar de onderzoekers ontdekten iets heel anders:

De beginlagen (zoals laag 5) kijken naar simpele dingen: "Is het warm of koud? Is het snel of langzaam?" (Frequentie en ruis).
De laatste laag (laag 23) is een enorme bibliotheek met duizenden complexe concepten: "Seizoenen", "Trends", "Zakjes en pieken". Het is heel rijk aan informatie, maar... niet altijd nodig.
De middenlaag (laag 11) is de echte held. Hier zit de sleutel tot het succes van het model.

De Analogie van de Brandweer:
Stel je voor dat het model een brandweerbrigade is.

De laatste laag is de administratie: ze hebben een perfecte lijst van alle mogelijke branden, soorten blusmiddelen en historische incidenten. Ze weten alles, maar ze zijn niet direct aan het blussen.
De middenlaag is de brandweerman die de brandhaard ziet. Als je deze persoon weghaalt (door een knopje uit te schakelen), stopt de brigade met werken. De rest van het team (de administratie) kan niet meer reageren zonder die ene persoon die zegt: "Hier is het vuur, en het groeit snel!"

4. Wat gebeurt er als je dingen "weghaalt"?

De onderzoekers deden een experiment: ze schakelden één "gedachte" (een feature) per keer uit en keken of het model nog steeds goed voorspelde.

Resultaat: Bijna elke gedachte die ze uitschakelden, maakte het model slechter. Dit bewijst dat elk stukje informatie echt nodig is.
Het paradoxale effect: Toen ze in de laatste laag (de administratie) veel informatie weghaalden, werd het model beter!
- Waarom? Omdat de laatste laag soms te veel "ruis" of onnodige details bevat die het model verwarren. Door die weg te halen, wordt het model scherpere en focust het zich op de echte signalen. Het is alsof je een te drukke telefoonlijn opruimt: door sommige nummers te verwijderen, werkt de lijn sneller.

5. Wat leert dit ons?

De belangrijkste les is dat dit model niet vooral kijkt naar mooie, regelmatige patronen (zoals een seizoen dat elk jaar terugkomt).
In plaats daarvan is het model verslaafd aan het detecteren van plotselinge veranderingen.

Het model schreeuwt: "Let op! Er is iets plotseling veranderd!" (een level shift).
De "middenlaag" is waar deze schreeuw het hardst is. Als je die laag verwijdert, raakt het model zijn geheugen kwijt en maakt het foute voorspellingen.

Samenvatting in één zin

De onderzoekers hebben bewezen dat dit super-slimme tijdreeks-model niet werkt door alles perfect te onthouden, maar door in het midden van zijn "hersenen" extreem goed te zijn in het detecteren van plotselinge veranderingen, terwijl de rest van het model soms juist verwarrend veel informatie verzamelt die we eigenlijk kunnen negeren.

Het is een doorbraak omdat we nu eindelijk begrijpen waarom deze modellen werken, en dat we ze misschien nog slimmer kunnen maken door de "verwarrende" informatie in de laatste lagen weg te halen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models", gepresenteerd op de ICLR 2026 Workshop TSALM.

Probleemstelling

Tijdreeks-basismodellen (TSFMs) zoals Chronos-T5, TimesFM en MOMENT worden steeds vaker ingezet in kritieke domeinen en presteren vaak state-of-the-art, zelfs in zero-shot scenario's. Ondanks hun wijdverbreide adoptie blijft hun interne werking echter een "black box". In tegenstelling tot de Natural Language Processing (NLP)-gemeenschap, waar mechanische interpretabiliteit (MI) via methoden zoals Sparse Autoencoders (SAEs) en circuit-analyse goed ontwikkeld is, ontbreekt er voor tijdreeksmodellen een fundamenteel mechanisch inzicht. Bestaande interpretatiemethoden voor tijdreeksen zijn voornamelijk post-hoc (bijv. salientiekarten of perturbatie-experimenten) en hebben geen causaliteit bewezen. Er is nog nooit eerder een SAE toegepast op een TSFM om de causale relevantie van interne features te onderzoeken.

Methodologie

De auteurs passen voor het eerst Sparse Autoencoders (SAEs) toe op Chronos-T5-Large (710M parameters), een model dat tijdreeksen tokeniseert via quantisatie in 4.096 bins.

SAE Training:
- Er worden TopK SAE's getraind op de residual stream-activaties op zes specifieke punten in het model: encoder blokken 5 (vroeg), 11 (midden) en 23 (laat), decoder blokken 11 en 23, en de cross-attention output bij decoder blok 11.
- De SAE's hebben een expansiefactor van 8 ( $d_{sae} = 8.192$ features per laag) met $k=64$ actieve features per input.
- Training vindt plaats met MSE-verlies over 50.000 stappen.
Data en Taxonomie:
- Synthetische dataset: Gebruikt voor het labelen van features in 11 tijdsconcepten (zoals trend, seizoenspatroon, niveauverschuiving, frequentie, ruis) via correlatie met ground-truth eigenschappen.
- ETT-benchmark: Gebruikt voor de causale experimenten.
Causale Validatie (Ablatie):
- Single-feature ablatie: Elke individuele feature wordt uitgezet ( $z_j \leftarrow 0$ ) en de verandering in de CRPS (Continuous Ranked Probability Score) wordt gemeten. Een positieve $\Delta$ CRPS betekent dat de feature causaal relevant is voor de voorspelling.
- Progressieve ablatie: Features worden cumulatief verwijderd, gesorteerd op hun bijdrage (decoder-norm), om te zien hoe het model degradeert of verbetert naarmate meer features worden verwijderd.

Belangrijkste Bijdragen

Eerste toepassing van SAE's op TSFMs: Het paper bewijst dat SAE's succesvol kunnen worden getraind op tijdreeksmodellen en dat de geleerde features causaal relevant zijn.
Causale Validatie: Uit 392 ablatie-experimenten blijkt dat elke geteste feature een positieve bijdrage levert aan de voorspelling (100% positieve $\Delta$ CRPS), wat aantoont dat deze features niet overbodig zijn.
Diepte-afhankelijke hiërarchie: Het paper onthult een duidelijke hiërarchie in hoe tijdreeksconcepten worden verwerkt:
- Vroege lagen: Focus op lage-niveau frequentie en volatiliteit.
- Midden-encoder: Concentreert zich op cruciale veranderingdetectie (level shifts en ruis).
- Laatste encoder: Bevat een rijke, semantische taxonomie van concepten (seizoenspatronen, trends), maar is minder kritiek voor de directe voorspelling.

Resultaten

Universele Causale Relevantie: Alle 392 geteste features veroorzaakten een verslechtering van de CRPS bij ablatie. De impact is echter sterk ongelijk verdeeld.
De "Mid-Encoder" als Kritieke Knelpunt:
- Encoder blok 11 (midden) is het meest kritiek. De top-feature hier veroorzaakt een $\Delta$ CRPS van 38,61.
- De verdeling van impact is zwaar rechtsscheef (power-law): een klein aantal features draagt disproportioneel veel bij.
- Dit laag is gedomineerd door features voor niveauverschuivingen (1.024 features) en ruis (413 features), wat suggereert dat Chronos-T5 zich richt op het detecteren van abrupte veranderingen in distributies in plaats van het herkennen van periodieke patronen.
Het Paradox van de Laatste Encoder:
- Encoder blok 23 (laatste) heeft de rijkste semantische dekking (59,8% gelabelde features, inclusief veel seizoenspatronen).
- Echter, bij progressieve ablatie verbetert de voorspellingkwaliteit (CRPS daalt van 3,62 naar 2,73) wanneer features uit deze laag worden verwijderd.
- Dit suggereert dat de laatste laag features bevat die nuttig zijn voor generalisatie over diverse trainingsdomeinen, maar suboptimaal of zelfs schadelijk zijn voor de specifieke ETT-taken (impliciete domeinadaptatie door ablatie).
Decoder: De decoder-lagen tonen een lage labeling en een focus op gladde voorspellingen, maar zijn minder causaal kritiek dan de midden-encoder.

Betekenis en Conclusie

Dit onderzoek markeert een mijlpaal in mechanische interpretabiliteit voor tijdreeksmodellen. De belangrijkste bevindingen zijn:

Mechanische Interpretabiliteit werkt: SAE's kunnen effectief worden gebruikt om causale "handles" te vinden in TSFMs.
Verandering vs. Patroon: Chronos-T5 vertrouwt primair op de detectie van abrupte dynamische veranderingen (level shifts) in de middenlagen van de encoder, eerder dan op het herkennen van complexe periodieke patronen (die pas in de laatste lagen worden geëncodeerd).
Semantische Rijkdom $\neq$ Causale Belangrijkheid: Er is een omgekeerd verband tussen de semantische rijkdom van een laag en haar causale impact op de voorspelling. De "meest interessante" laag (laatste encoder) is niet de meest cruciale voor de prestatie; integendeel, het verwijderen van haar features kan de prestatie zelfs verbeteren.

De studie benadrukt dat toekomstige interpretatie- en optimalisatiestrategieën voor tijdreeksmodellen zich moeten richten op de middenlagen en de detectie van abrupte veranderingen, in plaats van alleen op de semantisch rijke eindlagen.

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

1. Het probleem: Een zwart doosje

2. De oplossing: De "Gedachten-Vertaler"

3. De grote ontdekking: De "Midden-Leg" is de held

4. Wat gebeurt er als je dingen "weghaalt"?

5. Wat leert dit ons?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers