xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een supersterke, maar mysterieuze robot hebt die kan voorspellen of een patiënt ziek is, alleen door naar een lijn op een scherm te kijken (bijvoorbeeld een hartslaglijn). De robot zegt: "Ja, deze persoon is ziek!" Maar de dokter vraagt: "Waarom? Welk stukje van die lijn gaf je die reden?"

De robot geeft je een antwoord: "Kijk hier, dit stukje hier is heel belangrijk."

Het probleem: Hoe weet je of de robot niet gewoon liegt of raadt? In de echte wereld hebben we vaak geen "antwoordenlijstje" (een ground truth) om te zien welk stukje van de lijn écht het probleem was. Het is alsof je een detective bent die een dader moet vinden, maar er zijn geen getuigen die weten waar de dader zat.

De oplossing van dit paper:
De auteur, Gregor Baer, heeft een nieuw gereedschap bedacht genaamd xaitimesynth. Dit is een soort "speelgoedfabriek" voor data.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Speelgoedfabriek (Synthetische Data)

In plaats van te wachten op echte ziekenhuizen die hun geheimen delen, bouwt xaitimesynth zijn eigen ziekenhuizen.

Het idee: De fabriek maakt duizenden nep-hartslaglijnen.
De truc: Bij het maken van elke lijn, voegt de fabriek een heel duidelijk, opvallend teken toe op een bekende plek.
- Analogie: Stel je voor dat je een foto maakt van een bos. Je weet dat er een rode ballon in het bos zit, maar je plakt die ballon er zelf op. Je weet dus precies waar de ballon zit.
De uitkomst: De computer leert om die rode ballon te vinden. Omdat jij de ballon hebt geplaatst, weet je precies waar hij zou moeten zitten. Als de robot nu zegt: "De ballon zit daar!", kun je controleren of hij gelijk heeft.

2. De "Vloek van de Herhaling"

Vroeger moest elke onderzoeker die dit wilde doen, zijn eigen fabriek bouwen. Het was alsof elke detective zijn eigen nep-bos moest tekenen, met eigen regels voor hoe de bomen eruit zagen. Dat was veel werk en vaak niet vergelijkbaar.
xaitimesynth is de eerste keer dat er één grote, standaard fabriek is waar iedereen zijn nep-bossen kan maken. Het is een "bouwdoos" die iedereen kan gebruiken, zodat we eerlijk kunnen vergelijken welke detective (of AI) het beste is.

3. De Test (De Metingen)

Zodra de robot een lijn heeft bekeken en zegt "Hier is het belangrijk!", gebruikt het programma speciale meetlatjes om te zien hoe goed de robot was:

De "Richting" (Pointing Game): Heeft de robot met zijn vinger precies op de rode ballon gewezen?
De "Massa" (Relevance Mass): Heeft de robot de meeste aandacht besteed aan het stukje met de ballon, of keek hij ook naar de bomen die niets te maken hadden?
De "Ranglijst" (Rank Accuracy): Als de robot de belangrijkste stukjes van 1 tot 10 rangschikt, staat de echte ballon op plek 1?

4. Waarom is dit handig?

Geen ingewikkelde code nodig: Je kunt het programma instellen met een simpele tekstlijst (YAML), alsof je een recept schrijft: "Maak 100 lijnen, voeg een piek toe op plek 50."
Veilig en snel: Je hoeft geen echte patiëntdata te gebruiken. Alles is nep, maar de regels zijn echt.
Open source: Iedereen mag het gratis gebruiken en verbeteren.

Kort samengevat:
xaitimesynth is een tool die wetenschappers helpt om te testen of hun slimme computers echt begrijpen waarom ze iets voorspellen. Ze doen dit door een veilige, gecontroleerde omgeving te creëren waar ze precies weten waar het antwoord zit, zodat ze kunnen zien of de computer ook echt naar het juiste antwoord kijkt. Het is alsof je een leerling een proefexamen geeft waarvan jij het antwoordboekje hebt, zodat je precies kunt zien of hij het echt snapt of dat hij gewoon gokt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het evalueren van attributiemethoden (XAI) voor tijdreeksen is fundamenteel moeilijk omdat real-world datasets zelden "ground truth" bevatten: er is geen kennis over welke specifieke tijdstippen of kenmerken de voorspelling van het model daadwerkelijk hebben bepaald.

Huidige aanpak: Onderzoekers genereren vaak synthetische data waarbij class-discriminerende kenmerken op bekende locaties worden geplaatst.
De beperking: Elke studie implementeert deze synthetische data-generatie en evaluatie opnieuw vanaf nul ("from scratch"). Dit leidt tot gebrek aan reproduceerbaarheid, inconsistentie in methodologie en inefficiëntie.
Evaluatie-uitdaging: Bestaande XAI-bibliotheken (zoals Captum, Quantus) missen vaak specifieke ondersteuning voor tijdreeksen of bieden geen geïntegreerde synthetische data-generatie met bijbehorende ground truth-maskers.

Methodologie

Het paper introduceert xaitimesynth, een Python-pakket dat een gestandaardiseerde werkstroom biedt voor het evalueren van attributiemethoden op tijdreeksen. De kernmethodologie bestaat uit twee hoofdcomponenten:

Synthetische Data Generatie (Additief Model):
- Het pakket genereert synthetische tijdreeksen ( $x$ ) volgens een additief model: $x = n + f$ .
- $n$ (Background): Een achtergronds-signaal (bijv. Gaussisch ruis, willekeurige wandeling, seizoensgebonden signalen).
- $f$ (Feature): Een lokaal, class-discriminerend kenmerk dat zich binnen een specifiek tijdsvenster bevindt (met nullen daarbuiten).
- Ground Truth: Het pakket registreert automatisch het tijdsvenster van het kenmerk als een binaire ground truth-mask voor elke steekproef.
- Flexibiliteit: Het ondersteunt zowel univariate als multivariate tijdreeksen. Bij multivariate data kunnen kanalen onafhankelijke signalen hebben of gecoördineerde vensters.
- Interface: Data-definities kunnen declaratief worden gedaan via een "fluent" API (in Python) of via YAML-configuratiebestanden, wat reproduceerbaarheid en deling van experimenten vergemakkelijkt.
Evaluatie en Metrieken:
- Het pakket vergelijkt de gegenereerde attributies met de bekende ground truth-maskers.
- Locatie-metrieken: In plaats van perturbatie (het verstoren van input), meet het pakket de ruimtelijke overeenkomst tussen attributies en de waarheid.
- Opgenomen metrieken:
  - AUC-ROC & AUC-PR: Beoordelen de rangschikkingkwaliteit van attributies.
  - Relevance Mass Accuracy (RMA): Berekent het fractionele deel van de totale attributiemassa dat binnen het ground truth-venster valt.
  - Relevance Rank Accuracy (RRA): Controleert of de top-K tijdstippen met de hoogste attributies binnen het venster vallen.
  - Pointing Game: Een binaire check of het maximum van de attributie binnen het venster ligt.
  - Normalized Attribution Correspondence (NAC): Gebaseerd op eye-tracking, meet het de gemiddelde z-scored attributie op ground truth-locaties.
  - Regression-metrieken: MAE en MSE voor punt-tot-punt fouten.

Belangrijkste Bijdragen

Eerste Geïntegreerde Pakket: xaitimesynth is het eerste pakket dat synthetische tijdreeks-generatie (met automatische ground truth-tracking) combineert met een standaardset van locatie-metrieken specifiek voor XAI-evaluatie.
Reproduceerbaarheid en Standaardisatie: Door een gedeelde infrastructuur te bieden, elimineert het pakket de noodzaak voor elke studie om eigen data-generatie-pijplijnen te bouwen. Dit maakt resultaten tussen verschillende studies directer vergelijkbaar.
Flexibele Configuratie: De combinatie van een Python-builder API en YAML-configuratie stelt onderzoekers in staat om complexe scenario's (meerdere klassen, verschillende signaaltype, multivariate data) eenvoudig te definiëren en te delen.
Open Source en Documentatie: Het pakket is open source (MIT-licentie), afhankelijk van standaardbibliotheken (NumPy, pandas, PyYAML) en vereist geen deep learning-frameworks voor de generatie of evaluatie zelf.

Resultaten en Capabiliteiten

Hoewel het paper voornamelijk een tool-presentatie is en geen nieuwe XAI-algoritmen introduceert, demonstreert het de functionaliteit via:

Voorbeeldwerkstroom: Een codevoorbeeld (Listing 1) toont het definiëren van een tweeklassendataset, het genereren van train/test splits, en het evalueren van attributies.
Visualisatie: De tool kan componenten visualiseren (achtergrond, feature, som) om de ground truth te verifiëren (Figuur 1).
Vergelijking: Tabel 1 toont aan dat bestaande pakketten (zoals TSInterpret, Quantus, TimeSynth) slechts een deel van de benodigde functionaliteit bieden (bijv. alleen attributie, alleen perturbatiemetrieken, of alleen data-generatie zonder ground truth). xaitimesynth vult deze gaten door alle aspecten te combineren.

Significantie

De significantie van xaitimesynth ligt in het oplossen van het "reproduceerbaarheidsprobleem" in XAI-evaluatie voor tijdreeksen.

Betrouwbaarheid: Het biedt een "sanity check" voor attributiemethoden. Als een model hoge nauwkeurigheid bereikt op synthetische data waar de enige discriminerende informatie bekend is, kan men erop vertrouwen dat het model die specifieke kenmerken leert in plaats van "shortcut learning" (artefacten) uit te buiten.
Standaardisatie: Het stelt de gemeenschap in staat om attributiemethoden op een consistente basis te vergelijken, wat essentieel is voor de voortgang van betrouwbare Explainable AI.
Toekomstgericht: Het pakket vormt een basis voor toekomstig onderzoek naar hoe attributiemethoden presteren onder gecontroleerde omstandigheden, voordat ze worden toegepast op complexe, onzekere real-world datasets.

Kortom, xaitimesynth transformeert de evaluatie van tijdreeks-attributies van een handmatige, per-studie implementatie naar een gestandaardiseerde, reproduceerbare en open wetenschappelijke praktijk.

xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

1. De Speelgoedfabriek (Synthetische Data)

2. De "Vloek van de Herhaling"

3. De Test (De Metingen)

4. Waarom is dit handig?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Capabiliteiten

Significantie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions