Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch, der einen riesigen, genialen Kochkurs für eine neue Generation von Köchen (die sogenannten Zeitreihen-Fundamentmodelle) entwickelt hat. Dieser Kurs basiert auf Millionen von Rezepten aus der ganzen Welt. Je besser und vielfältiger die Rezepte sind, desto besser werden die Köche, die daraus lernen.

Aber hier ist das Problem: Nicht alle Rezepte sind gleich gut. Manche sind verwirrt, manche sind veraltet, und manche sind einfach nur falsch. Wenn Sie diese schlechten Rezepte in den Kurs einmischen, lernen die Köche Fehler. Wenn Sie nur die besten Rezepte auswählen, werden die Köche zu Meistern.

Die Frage ist also: Wie finden wir heraus, welche Rezepte (Daten) wirklich gut sind, ohne jedes einzelne Rezept von Hand zu prüfen?

Das ist genau das Problem, das dieses Papier mit einer neuen Methode namens LTSV löst.

Das alte Problem: Der riesige Rechenberg

Früher gab es Methoden, um die Qualität von Daten zu berechnen (wie die "Einflussfunktion"). Stellen Sie sich das so vor: Um herauszufinden, ob ein Rezept gut ist, müssten Sie den gesamten Kochkurs einmal ohne dieses Rezept durchgehen, dann einmal mit diesem Rezept, und dann noch einmal mit tausend anderen Kombinationen. Bei kleinen Kochkursen ging das noch. Aber bei diesen riesigen, modernen Modellen mit Milliarden von Parametern wäre das so, als würde man versuchen, den gesamten Ozean mit einem Löffel auszuschöpfen. Es dauert zu lange und kostet zu viel Energie.

Die neue Lösung: LTSV – Der "Probe-Koch"-Ansatz

Die Autoren schlagen eine clevere, leichte Methode vor, die sie LTSV nennen. Hier ist die Idee in einfachen Bildern:

Der "Ein-Koch-Test" (In-Context Finetuning):
Statt den ganzen Kurs neu zu durchlaufen, nehmen wir einen einzelnen Koch (das Modell), der bereits gut ausgebildet ist. Wir geben ihm ein neues Rezept (ein Datenstück) und sagen: "Versuche, das kurz zu lernen." Wir schauen uns dann an: Hat sich der Koch durch dieses eine Rezept verbessert oder verschlechtert?
- Wenn der Koch danach besser kocht, war das Rezept wertvoll.
- Wenn er danach verwirrt ist, war das Rezept schlecht.
  Das ist viel schneller, als den ganzen Kurs neu zu planen.
Das Zeit-Element (Zeitblock-Aggregation):
Zeitreihen sind wie ein Film, nicht wie ein Standbild. Ein einzelner Moment allein sagt oft nichts aus. Stellen Sie sich vor, Sie bewerten einen Film, indem Sie nur einen einzigen Frame betrachten. Das funktioniert nicht.
LTSV schneidet den Film in überlappende Szenen (Blöcke). Es bewertet nicht nur einen einzelnen Moment, sondern eine ganze Szene. Wenn eine Szene (ein Zeitblock) dem Koch hilft, den Film besser zu verstehen, bekommt sie Punkte. Am Ende werden die Punkte aller Szenen, die einen bestimmten Moment enthalten, gemittelt. So wird sichergestellt, dass die zeitliche Abhängigkeit (was vor und nachher passiert ist) berücksichtigt wird.

Warum ist das genial?

Es ist schnell: Es braucht nur einen kleinen "Schubs" (einen Rechenschritt), um zu sehen, ob ein Datenstück gut ist. Es muss keine riesigen mathematischen Matrizen (die "Hessische Matrix") umdrehen, was bei großen Modellen unmöglich wäre.
Es ist genau: Obwohl es schnell ist, funktioniert es fast so gut wie die alten, langsamen Methoden.
Es ist übertragbar: Das Beste an der Methode ist, dass die Bewertung, die auf dem riesigen "Super-Koch-Modell" gemacht wurde, auch für kleine, normale Kochmodelle funktioniert. Wenn das Super-Modell sagt: "Dieses Rezept ist Gold wert", dann ist es das auch für die kleinen Modelle.

Das Ergebnis im Experiment

Die Forscher haben ihre Methode an fünf verschiedenen Datensätzen (wie Stromverbrauch, Wetter, Börsenkurse) getestet. Das Ergebnis war beeindruckend:

Wenn sie nur die besten 50 % der Daten (die das Modell als wertvoll eingestuft hatte) zum Trainieren verwendeten, waren die Ergebnisse oft besser oder genauso gut wie wenn sie alle Daten verwendet hätten.
Wenn sie die schlechtesten 50 % verwendeten, wurden die Modelle deutlich schlechter.

Zusammenfassung

Stellen Sie sich LTSV wie einen intelligenten Daten-Filter vor. Anstatt jeden einzelnen Datenpunkt mühsam zu analysieren, nutzt es die Intelligenz eines großen Vorbilds, um durch einen schnellen "Probe-Lauf" zu erkennen, welche Daten wirklich nützlich sind. Es ist wie ein erfahrener Kritiker, der in Sekunden erkennt, welche Zutaten in einem riesigen Kochbuch wirklich hochwertig sind, ohne das ganze Buch neu schreiben zu müssen.

Dies ermöglicht es, KI-Modelle effizienter zu trainieren, indem man sich auf die "Goldkörner" in den Daten konzentriert und den "Sand" aussortiert.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning" auf Deutsch:

1. Problemstellung

Time-Series-Foundation-Modelle (TSFMs) haben durch das Vor-Training auf großen, diversen Datensätzen beeindruckende Fähigkeiten entwickelt. Die Leistung dieser Modelle hängt jedoch fundamental von der Qualität der Trainingsdaten ab. Daher ist eine genaue und effiziente Datenbewertung (Data Valuation) notwendig, um informative Samples zu identifizieren und Rauschen oder verzerrte Daten zu filtern.

Bestehende Methoden zur Datenbewertung, wie Einflussfunktionen (Influence Functions) oder Shapley-Werte, stoßen bei TSFMs an ihre Grenzen:

Rechenkomplexität: Einflussfunktionen erfordern die Inversion der Hesse-Matrix, was bei Modellen mit Millionen oder Milliarden von Parametern (wie TSFMs) rechnerisch unmöglich ist ( $O(P^3)$ ).
Skalierbarkeit: Shapley-basierte Methoden leiden unter exponentieller Komplexität durch das Sampling von Teilmengen.
Zeitreihen-Spezifika: Viele traditionelle Methoden vernachlässigen die zeitlichen Abhängigkeiten (temporal dependencies) in den Daten.

Das Ziel ist es, eine Methode zu entwickeln, die sowohl skalierbar für große Foundation-Modelle ist als auch die zeitliche Struktur der Daten berücksichtigt.

2. Methodik: LTSV (Lightweight Time Series Valuation)

Die Autoren schlagen LTSV vor, einen Ansatz, der auf In-Context-Finetuning basiert, um die Einflussfunktion effizient zu approximieren.

A. Theoretische Grundlage: Approximation der Einflussfunktion

Klassische Einflussfunktionen messen, wie sich eine kleine Gewichtung eines Samples auf den Verlust eines anderen Samples auswirkt. Dies erfordert normalerweise die Berechnung von Gradienten und der Hesse-Matrix.
LTSV nutzt den theoretischen Befund, dass ein einzelner Schritt des In-Context-Finetunings eine gute Approximation der klassischen Einflussfunktion darstellt.

Mechanismus: Ein Zielsample (Target) wird verwendet, um das vortrainierte Modell mit einem einzigen Gradientenschritt zu aktualisieren.
Messung: Die Änderung des Verlusts (Loss) auf einem Kontext-Datensatz (Context) vor und nach diesem einen Schritt wird berechnet.
Formel: Der Einfluss wird proportional zur Verlustreduktion geschätzt:
$Infl(z, z') \propto L(z'; \theta) - L(z'; \theta_{finetuned})$
Dies eliminiert die Notwendigkeit der Hesse-Matrix und reduziert die Komplexität auf lineare Skalierung ( $O(P)$ ).

B. Zeitreihen-spezifische Anpassung: Temporale Block-Aggregation

Da Zeitreihen starke zeitliche Abhängigkeiten aufweisen, wird die Bewertung nicht nur auf einzelnen Punkten, sondern auf Blöcken durchgeführt:

Block-Segmentierung: Die Zeitreihe wird in überlappende Blöcke fester Länge unterteilt.
Block-Bewertung: Jeder Block dient als Target für das In-Context-Finetuning. Der resultierende Loss-Unterschied auf dem Kontext-Datensatz ergibt einen „Block-Score".
Hierarchische Aggregation:
- Punkt-Level: Da Blöcke überlappen, wird der Score für jeden einzelnen Zeitpunkt durch Mittelung aller Block-Scores berechnet, die diesen Punkt enthalten.
- Sample-Level: Die Punktwerte werden aggregiert, um einen Gesamtwert für das gesamte Zeitreihen-Sample zu erhalten.

Dieser Ansatz bewahrt die zeitliche Struktur und vermeidet die Notwendigkeit, Multivariaten-Daten manuell in Kanäle aufzuteilen.

3. Hauptbeiträge

Lösung eines dringenden Problems: LTSV adressiert die Herausforderung der skalierbaren Datenbewertung für moderne TSFMs, für die bestehende Methoden rechnerisch prohibitiv sind.
Neuer Framework-Ansatz: Die Umwidmung von In-Context-Finetuning zur Datenbewertung ermöglicht eine leichte, aber theoretisch fundierte Approximation der Einflussfunktion.
Robustheit und Generalisierung: Die Methode funktioniert nicht nur auf den Foundation-Modellen selbst, sondern die gewonnene Datenbewertung lässt sich erfolgreich auf diverse downstream-Modelle (z. B. DLinear, PatchTST) übertragen.

4. Experimentelle Ergebnisse

Die Autoren evaluierten LTSV auf fünf gängigen Datensätzen (Electricity, Exchange Rate, Weather, Illness, ETT) und drei TSFM-Architekturen (Time-MoE, Time-LLM, MOMENT).

Bewertungsgüte (Main Results):
- Das Fine-Tuning mit den top 50 % der nach LTSV bewerteten Daten führte konsistent zu besseren Vorhersageergebnissen (niedrigerer MSE/MAE) als das Fine-Tuning mit den bottom 50 %.
- In vielen Fällen erreichte das Fine-Tuning mit nur den Top-Daten Ergebnisse, die dem Fine-Tuning mit dem gesamten Datensatz entsprachen oder ihn sogar übertrafen.
- Dies beweist, dass LTSV informative von nicht-informativen Daten zuverlässig unterscheiden kann.
Rechenleistung (Efficiency):
- Im Vergleich zu klassischen Einflussfunktionen zeigt LTSV eine nahezu lineare Skalierung mit der Modellgröße.
- Während die Hesse-Matrix-Inversion bei großen Modellen (z. B. 200M Parameter) prohibitiv lange dauert, bleibt LTSV auch bei diesen Größen handhabbar und schnell.
Generalisierung (Transferability):
- Datenbewertungen, die auf einem TSFM (z. B. Time-MoE) berechnet wurden, funktionierten hervorragend, wenn sie verwendet wurden, um andere, architektonisch unterschiedliche Modelle (DLinear, PatchTST) zu trainieren.
- Die Leistung war vergleichbar mit Methoden, die die Bewertung direkt auf dem jeweiligen downstream-Modell berechnet hätten (was jedoch rechnerisch viel teurer wäre).
Ablationsstudie:
- Die Methode ist robust gegenüber Variationen der Blocklänge (getestet zwischen 50 und 125), wobei mittlere Blocklängen (75–100) leicht stabilere Ergebnisse lieferten.

5. Bedeutung und Fazit

LTSV stellt einen wichtigen Fortschritt im Bereich des maschinellen Lernens für Zeitreihen dar. Es schließt die Lücke zwischen theoretisch fundierter Datenattribution und der praktischen Anwendbarkeit auf riesige Foundation-Modelle.

Praktische Relevanz: Es ermöglicht effizientes Data-Cleaning und Ressourcen-Management, indem es zeigt, dass hochwertige Teilmengen von Daten oft ausreichen, um Modelle zu trainieren.
Theoretischer Beitrag: Es etabliert In-Context-Finetuning als gültige, leichte Approximation für Einflussfunktionen in zeitlichen Kontexten.
Zukunftsausblick: Der Ansatz bietet eine Brücke zwischen Datenattribution und Modellgeneralisierung und könnte als Standardwerkzeug für die Entwicklung robusterer und dateneffizienterer Zeitreihenmodelle dienen.

Zusammenfassend bietet LTSV eine leichtgewichtige, skalierbare und zuverlässige Lösung, um den Wert einzelner Zeitreihen-Samples für Foundation-Modelle zu quantifizieren, ohne dabei die zeitlichen Abhängigkeiten zu vernachlässigen oder die Rechenkosten explodieren zu lassen.

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Das alte Problem: Der riesige Rechenberg

Die neue Lösung: LTSV – Der "Probe-Koch"-Ansatz

Warum ist das genial?

Das Ergebnis im Experiment

Zusammenfassung

1. Problemstellung

2. Methodik: LTSV (Lightweight Time Series Valuation)

A. Theoretische Grundlage: Approximation der Einflussfunktion

B. Zeitreihen-spezifische Anpassung: Temporale Block-Aggregation

3. Hauptbeiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Fazit

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem