From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

Van "Vertaalfouten" tot "Echte Slimheid": Waarom GPT-modellen nog niet de helden zijn in voorspellen

Stel je voor dat je een zeer slimme, wereldberoemde vertaler (een LLM, zoals GPT) wilt inhuren om het weer te voorspellen. Je geeft hem de afgelopen dagen van temperatuur en regen, en hij moet zeggen wat er morgen gebeurt.

In de afgelopen jaren hebben onderzoekers geprobeerd deze taal-experts in te zetten voor tijdreeksen (zoals weer, beurskoersen of stroomverbruik). Maar een nieuw onderzoek, gedaan door wetenschappers van de Harbin Institute of Technology en de Polytechnische Universiteit van Hongkong, zegt: "Wacht even, we kijken misschien naar de verkeerde reden waarom het wel of niet werkt."

Hier is wat ze hebben ontdekt, vertaald in alledaags taalgebruik:

1. Het Probleem: De "Vertaler" doet het werk, niet de "Denker"

De meeste huidige methoden werken zo:

Je neemt een reeks cijfers (bijv. temperaturen).
Je gebruikt een Tokenizer (een vertaler) om die cijfers om te zetten in woorden die de taalcomputer begrijpt.
De taalcomputer (de Backbone) denkt na over die woorden.
Een Detokenizer (een andere vertaler) zet de woorden weer terug in cijfers.

Het probleem: De onderzoekers merkten op dat als je dit doet met kleine datasets (weinig data), de "vertalers" (Tokenizer en Detokenizer) zich zo goed aanpassen aan die specifieke kleine dataset, dat ze het werk bijna helemaal zelf doen.

De Analogie: Het is alsof je een briljante filosoof (de LLM) een test laat doen, maar je geeft hem een vraag die hij al uit zijn hoofd kent omdat de vertaler hem de vraag zo specifiek heeft vertaald. De filosoof hoeft niet echt na te denken; de vertaler heeft het antwoord al ingefluisterd. Hierdoor lijkt het alsof de filosoof slim is, terwijl hij eigenlijk niets doet.

2. De Oplossing: Een eerlijke proef

Om te zien of de filosoof (de LLM) écht slim is voor dit soort taken, hebben de onderzoekers drie verschillende versies van hetzelfde model gebouwd, maar met een andere "opleiding":

Versie A (De Taal-Expert): De filosoof is getraind op boeken en nieuws (normale taal). Hij mag niet veranderen. Alleen de vertalers worden getraind op de tijdreeks-data.
Versie B (De Nieuwe Leerling): De vertalers zijn hetzelfde als bij Versie A, maar de filosoof is nu een "leeg vel". Hij is getraind op alleen tijdreeks-data (weer, stroom, etc.), zonder enige kennis van taal.
Versie C (De Alles-kunner): Alles is nieuw. De filosoof en de vertalers zijn samen getraind op enorme hoeveelheden tijdreeks-data.

3. Wat bleek eruit?

De resultaten waren verrassend en een beetje teleurstellend voor de hype rondom LLM's:

De "Taal-Expert" (Versie A) faalt zonder training: Als je de taal-exploot (GPT) direct laat werken zonder hem eerst op tijdreeksen te trainen, doet hij het slecht. Zijn kennis van taal helpt niet bij het voorspellen van temperaturen. Het is alsof je een Shakespeare-expert vraagt om de stand van de beurs te voorspellen; zijn kennis van sonnetten helpt niet bij aandelen.
De "Nieuwe Leerling" (Versie B) doet het vaak beter: Een model dat puur is getraind op tijdreeks-data (zonder taal-kennis) presteert vaak beter dan de taal-expert. Dit betekent dat de "taal-kennis" van GPT eigenlijk niet zo nuttig is voor dit specifieke werk.
De "Alles-kunner" (Versie C) wint: Het model dat van scratch is getraind op enorme hoeveelheden tijdreeks-data doet het het beste. Maar hier is de crux: dit model is geen "taalmodel" meer; het is een gespecialiseerd tijdreeks-model.

4. De Grote Conclusie

De onderzoekers concluderen dat:

LLM's zijn niet de magische oplossing: Het idee dat je een bestaand taalmodel (zoals GPT) kunt gebruiken om het weer te voorspellen, werkt niet zo goed als mensen hoopten. De "taal-kennis" helpt niet echt.
De vertalers lagen in de weg: Veel eerdere studies dachten dat de LLM het werk deed, maar eigenlijk waren het de vertalers (Tokenizer/Detokenizer) die zich te goed hadden aangepast aan de kleine datasets.
Je hebt specifieke data nodig: Om goed te zijn in voorspellen, moet je model getraind zijn op tijdreeks-data, niet op woorden. Een model dat is getraind op 50 miljoen tijdreeks-punten doet het beter dan een gigantisch taalmodel dat is getraind op boeken.

Kortom:
Het is alsof je probeert een Formule 1-auto (de taal-LLM) te gebruiken om een vrachtwagen te besturen. Je kunt de auto misschien een beetje aanpassen (de vertalers), maar hij is niet gebouwd voor dat werk. Als je echt een vrachtwagen wilt, bouw dan een vrachtwagen (een model getraind op tijdreeksen) in plaats van te hopen dat de Formule 1-auto het wel voor je doet.

De boodschap is: Stop met hopen dat taalmodellen alles kunnen. Voor tijdreeksen heb je gespecialiseerde modellen nodig.

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

1. Het Probleem: De "Vertaler" doet het werk, niet de "Denker"

2. De Oplossing: Een eerlijke proef

3. Wat bleek eruit?

4. De Grote Conclusie

Titel

1. Het Probleem: Tokenizer-Detokenizer Bias

2. Methodologie: Een Gecontroleerd Evaluatiekader

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

1. Het Probleem: De "Vertaler" doet het werk, niet de "Denker"

2. De Oplossing: Een eerlijke proef

3. Wat bleek eruit?

4. De Grote Conclusie

Titel

1. Het Probleem: Tokenizer-Detokenizer Bias

2. Methodologie: Een Gecontroleerd Evaluatiekader

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach