Adapting Time Series Foundation Models through Data Mixtures

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha extremamente talentoso (o "Modelo de Base" ou Foundation Model). Esse chef aprendeu a cozinhar milhões de pratos diferentes durante anos, lendo milhões de receitas. Ele é um gênio e consegue fazer um prato novo quase que instantaneamente, apenas olhando para os ingredientes, mesmo sem ter praticado aquele prato específico antes. Isso é o que chamamos de previsão "zero-shot" (zero-shot forecasting).

No entanto, existe um problema: se você pedir para esse chef cozinhar um prato muito específico de uma região que ele nunca visitou (um novo domínio), ele pode errar a tempero ou a consistência, porque os ingredientes locais são um pouco diferentes do que ele está acostumado.

Aqui entra o desafio: Como ensinar esse chef a cozinhar melhor esse novo prato específico, usando apenas receitas de pratos parecidos que você já tem em casa?

O Problema: A Mistura Confusa

A maneira tradicional de fazer isso seria pegar todas as receitas que você tem (de todos os seus amigos e vizinhos) e tentar ensinar o chef a cozinhar tudo ao mesmo tempo, ou então criar um "mini-chef" separado para cada amigo.

O artigo propõe que essa abordagem tradicional tem um defeito:

Ensinar tudo junto: O chef fica confuso. Ele tenta lembrar de como fazer um bolo de cenoura e um curry picante ao mesmo tempo, e acaba fazendo um meio-termo que não é bom em nenhum dos dois.
Um chef para cada amigo: Isso é melhor, mas ainda não é perfeito. Porque, às vezes, o prato do "Amigo A" tem duas fases: uma parte é doce e outra é salgada. Se você der uma receita inteira para um único "mini-chef", ele não vai saber focar na parte doce nem na salgada.

A Solução: O "MixFT" (A Mistura Inteligente)

Os autores criaram um método chamado MixFT. Em vez de olhar para as receitas baseadas em quem as escreveu (o "Amigo A" ou "Amigo B"), o MixFT olha para o conteúdo dos pratos.

Pense no MixFT como um detetive de sabores ou um organizador de despensa muito esperto.

O Detetive (Modelo Bayesiano): O MixFT pega todas as receitas que você tem e as analisa. Ele diz: "Ei, essa receita tem muito açúcar e é para o café da manhã. Essa outra tem muito pimenta e é para o jantar. Vamos separá-las não por quem escreveu, mas pelo tipo de sabor (sub-domínio) que elas representam."
A Reorganização: Ele pega os dados (as receitas) e os divide em caixas baseadas nesses "sabores" (sub-domínios). Uma caixa pode ser "Pratos com picos de temperatura" e outra "Pratos com padrões sazonais".
Especialização: Agora, em vez de treinar um chef para cada pessoa, ele treina um mini-chef especialista para cada caixa de sabor.
- O Chef da "Caixa de Picos" aprende a lidar apenas com mudanças bruscas.
- O Chef da "Caixa Sazonal" aprende apenas com padrões que se repetem no tempo.

Como Funciona na Prática (A Previsão)

Quando você chega com um novo prato (uma nova série temporal) e pede para o chef prever o futuro:

O MixFT olha para o seu novo prato e pergunta: "Isso parece mais com a 'Caixa de Picos' ou com a 'Caixa Sazonal'?"
Ele identifica o "sub-domínio" (o tipo de sabor) do seu prato.
Ele chama apenas o mini-chef especialista daquela caixa específica para fazer a previsão.

Por que isso é melhor?

Imagine que você está tentando prever o preço de ações de uma empresa de tecnologia.

Método Antigo (Por Conjunto de Dados): O chef tenta lembrar de como funcionava o mercado de energia, o mercado de varejo e o mercado de tecnologia tudo junto. O resultado é uma previsão mediana.
Método MixFT: O MixFT percebe que o seu novo dado tem um "padrão de volatilidade rápida" (como um pico). Ele ignora o chef que só sabe fazer pratos lentos e chama o especialista em "picos rápidos". Como esse especialista só viu dados parecidos com o seu durante o treino, ele faz uma previsão muito mais precisa.

Resumo da Ópera

O artigo diz que, para ensinar uma Inteligência Artificial a prever o futuro de dados novos, não devemos apenas olhar para "de onde vêm os dados" (qual arquivo ou banco de dados), mas sim para "como os dados se comportam".

Ao quebrar os dados em sub-grupos mais homogêneos (como separar ingredientes por tipo, em vez de por marca) e treinar especialistas para cada grupo, conseguimos previsões muito mais precisas, mesmo quando não temos muitos dados históricos do problema específico. É como ter uma equipe de especialistas em vez de um generalista que tenta saber de tudo um pouco.

Each language version is independently generated for its own context, not a direct translation.

1. Problema Identificado

Os Modelos de Fundação de Séries Temporais (TSFMs) tornaram-se populares devido à sua capacidade de previsão zero-shot (sem treinamento específico no domínio alvo). No entanto, quando um TSFM é aplicado a um novo domínio não coberto totalmente pelo conjunto de pré-treinamento, o desempenho pode degradar significativamente.

A questão central abordada pelo artigo é: Como adaptar melhor um TSFM utilizando um conjunto de conjuntos de dados relacionados para melhorar a previsão zero-shot em um novo domínio?

As abordagens atuais de fine-tuning (ajuste fino) geralmente seguem duas estratégias:

Fine-tuning Compartilhado (Shared): Treinar um único módulo adaptador (ex: LoRA) em todos os dados disponíveis.
Métodos por Conjunto de Dados (Per-Dataset): Treinar um módulo LoRA separado para cada conjunto de dados inteiro.

A Limitação: O artigo argumenta que os métodos "por conjunto de dados" não são ótimos. Um único conjunto de dados de séries temporais frequentemente contém múltiplos tipos de distribuições (sub-domínios), como diferentes padrões sazonais, níveis de volatilidade ou regimes de ruído. Treinar um único módulo LoRA para todo um conjunto de dados pode forçar o modelo a aprender características conflitantes, resultando em uma especialização subótima e em um maior "gap de generalização" durante a previsão zero-shot.

2. Metodologia: MixFT

Os autores propõem o MixFT (Mixing Fine-Tuning), um método que redivide os dados de ajuste fino com base em sub-domínios latentes em vez de limites de conjuntos de dados.

Principais Etapas do MixFT:

Identificação de Sub-domínios via Misturas Bayesianas:
- Em vez de usar rótulos de conjuntos de dados, o MixFT utiliza um Modelo de Mistura Gaussiana Bayesiano (Bayesian GMM) no espaço de incorporação (embedding) do TSFM.
- O modelo aprende a separar os dados em $K$ componentes (sub-domínios) que representam distribuições abstratas distintas (ex: padrões sazonais específicos, níveis de "picos" ou spikiness).
- Utiliza inferência variacional de campo médio para garantir estabilidade e evitar sobreajuste, mantendo o número de parâmetros baixo.
Re-divisão dos Dados:
- Com base no modelo treinado, cada janela de contexto de tempo é rotulada com o sub-domínio mais provável.
- Os dados são reorganizados em novos conjuntos ( $S_k$ ), onde cada conjunto contém dados homogêneos de um único sub-domínio, independentemente de qual conjunto de dados original eles vieram.
Ajuste Fino Especializado (Fine-Tuning):
- Um módulo LoRA separado é treinado para cada sub-domínio ( $S_k$ ).
- Isso garante que cada LoRA se especialize em uma distribuição de dados específica, simplificando a tarefa de aprendizado e reduzindo a interferência destrutiva entre tarefas concorrentes.
Previsão Zero-Shot:
- Ao receber um novo contexto de série temporal para previsão, o MixFT primeiro usa o GMM treinado para identificar a qual sub-domínio esse contexto pertence (calculando a probabilidade posterior).
- Em seguida, seleciona o módulo LoRA específico treinado para aquele sub-domínio e gera a previsão.
- O método utiliza uma atribuição "hard" (escolha do sub-domínio mais provável via argmax) para evitar previsões imprecisas decorrentes de contextos fora da distribuição (OOD) para sub-domínios específicos.

3. Contribuições Principais

Identificação de Sub-otimalidade: Demonstram que dividir dados apenas por rótulos de conjuntos de dados não é ideal para o ajuste fino de módulos especializados (LoRA) em previsão zero-shot, pois ignora a heterogeneidade interna dos dados.
Proposta do MixFT: Introdução de um método que utiliza misturas bayesianas para identificar e treinar módulos LoRA baseados em sub-domínios latentes. Isso permite uma especialização mais fina e uma seleção mais precisa do módulo durante a inferência.
Análise Empírica: Estudo abrangente mostrando que o MixFT supera tanto o ajuste fino compartilhado quanto os métodos por conjunto de dados. Curiosamente, alguns métodos por conjunto de dados performaram pior do que não fazer nenhum ajuste fino (Base), destacando a dificuldade de adaptar TSFMs sem uma divisão adequada dos dados.

4. Resultados Experimentais

Os experimentos foram realizados nos benchmarks Cloud e Gift-Eval, utilizando os modelos TSFM Chronos Bolt e Moirai-1.1-R.

Desempenho Superior: O MixFT obteve o melhor desempenho médio (medido por MASE - Mean Absolute Scaled Error) e a melhor classificação média (Average Rank) em quase todos os conjuntos de dados de avaliação, superando métodos como Shared, Per-Dataset, Arrow, Poly e MBC.
Comparação com Baseline: Diferente da literatura de LLMs onde o ajuste fino quase sempre supera a base, muitos métodos de ajuste fino para séries temporais falharam em superar o modelo base sem ajuste. O MixFT foi a exceção, superando consistentemente a linha de base.
Validação da Divisão de Dados: Ao controlar a seleção de módulos (usando sempre o roteamento Arrow), os autores provaram que os módulos LoRA treinados pelo MixFT (baseados em misturas de dados) são intrinsecamente melhores do que os treinados por conjunto de dados.
Análise de Sub-domínios: O modelo identificou padrões interpretáveis, como volatilidade do sinal no final do contexto ou tendências, demonstrando que a divisão baseada em misturas captura características físicas reais dos dados, e não apenas ruído.

5. Significado e Impacto

O trabalho do MixFT oferece uma mudança de paradigma na adaptação de modelos de fundação para séries temporais:

Foco na Homogeneidade: Em vez de tratar conjuntos de dados como blocos monolíticos, o MixFT foca na homogeneidade das distribuições internas.
Generalização: Ao reduzir o gap de distribuição entre os dados de treinamento (específicos de um sub-domínio) e os dados de teste (que pertencem ao mesmo sub-domínio), o modelo consegue generalizar melhor para cenários zero-shot.
Eficiência: O método é eficiente em parâmetros (usando LoRA) e computacionalmente viável, embora exija um passo adicional de classificação de sub-domínio durante a inferência.

Em resumo, o artigo demonstra que a qualidade da divisão dos dados de ajuste fino é tão crítica quanto o próprio algoritmo de ajuste fino. Ao alinhar os módulos adaptadores com sub-domínios latentes em vez de limites de conjuntos de dados artificiais, é possível extrair o máximo potencial dos Modelos de Fundação para tarefas de previsão em domínios não vistos.

Adapting Time Series Foundation Models through Data Mixtures

O Problema: A Mistura Confusa

A Solução: O "MixFT" (A Mistura Inteligente)

Como Funciona na Prática (A Previsão)

Por que isso é melhor?

Resumo da Ópera

1. Problema Identificado

2. Metodologia: MixFT

Principais Etapas do MixFT:

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Varying risk exposure in auto insurance: a weighted tweedie framework for experience rating an cancellation penalties

Remote, bivariate expert elicitation to determine the prior probability distribution for sample size calculation in a Bayesian non-inferiority multicenter randomized controlled trial (Croup Dosing Trial)

Sequentially-Rerandomized Switchback Experiments

Reinforcement Learning from Human Feedback: A Statistical Perspective

Applied Statistics Requires Scientific Context