OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha genial (o Modelo de Inteligência Artificial) que já sabe cozinhar pratos básicos do mundo todo. Agora, você quer que ele se especialize em dois novos estilos: culinária japonesa e culinária de código de computador.

O problema é: como você mistura os ingredientes (os dados de treinamento) para que o chef aprenda os dois sem estragar nenhum dos dois?

O Problema: A Mistura "Adivinhada" (Data Mixing)

Até agora, a única forma de fazer isso era como tentar assar um bolo misturando farinha, açúcar e chocolate antes de colocar na forno.

Você precisa decidir: "Vou usar 50% de farinha e 50% de açúcar".
Se você errar a proporção, o bolo fica horrível.
O pior: para descobrir a proporção certa, você tem que assar o bolo inteiro, provar, ver que está ruim, e começar tudo de novo do zero.
Como os "fornos" (supercomputadores) são caros e lentos, isso pode custar semanas de trabalho e milhares de dólares apenas para descobrir que a mistura estava errada.

A Solução: O "OPTIMER" (A Mistura "Mágica" Pós-Forno)

Os autores do artigo criaram uma técnica chamada OPTIMER. Eles mudaram completamente a lógica:

Treinamento Separado: Em vez de misturar tudo antes, eles ensinam o chef a fazer apenas o prato japonês (numa sessão) e apenas o prato de código (em outra sessão separada). Agora, eles têm dois "chefes especialistas" diferentes.
Extraindo a "Essência": Eles não olham para os ingredientes crus, mas sim para a mudança de personalidade que cada especialidade causou no chef. Eles criam um "mapa de mudança" (chamado de vetor de distribuição) para cada especialidade. É como se dissessem: "Para ser um mestre em japonês, o cérebro do chef mudou assim; para ser mestre em código, mudou assado".
A Mistura Inteligente (Otimização): Agora, em vez de cozinhar de novo, eles usam um algoritmo super rápido (como um "sabedor de sabores" robótico) para testar mentalmente: "E se eu misturar 70% da essência japonesa com 30% da essência de código?".
- Eles testam milhares de combinações em minutos (não semanas).
- Descobrem a combinação perfeita que faz o chef ser ótimo nos dois ao mesmo tempo.
- Eles aplicam essa mistura "mágica" nos pesos do modelo final.

Por que isso é revolucionário?

Economia de Tempo e Dinheiro: O método antigo levava semanas para testar uma mistura. O OPTIMER faz isso em horas, sendo 15 a 35 vezes mais rápido na busca pela solução ideal.
Flexibilidade Total: Imagine que você tem esses "mapas de essência" guardados numa geladeira. Amanhã, se você quiser um chef especialista apenas em Matemática, você pega o mapa de matemática e mistura com o mapa japonês, sem precisar treinar nada novo. Você cria um modelo sob medida na hora, sem gastar energia extra.
Melhor Resultado: O artigo mostra que essa mistura feita "depois" (pós-treinamento) é muito melhor do que tentar adivinhar a mistura "antes". O modelo final entende melhor, comete menos erros e não "esquece" o que já sabia.

A Analogia Final: O Mix de Música

Pense em dois DJs:

Método Antigo: Você mistura as faixas de dois DJs diferentes em uma única mesa de som antes de tocar a festa. Se a mistura ficar ruim, você tem que parar a festa, regravar as faixas e tentar de novo.
Método OPTIMER: Você deixa cada DJ tocar sua própria música separadamente. Depois, você pega as "pegadas" (os vetores) de cada um e usa um software para mixar as faixas na hora da festa, ajustando os volumes (pesos) até que a música fique perfeita. Se a festa mudar de estilo, você só ajusta os botões do mixer, sem precisar regravar nada.

Resumo: O OPTIMER é como ter um "controle remoto" para a inteligência artificial. Em vez de ter que reconstruir o robô inteiro para mudar sua especialidade, você apenas ajusta os botões de mistura depois que ele já foi treinado, economizando tempo, dinheiro e obtendo resultados muito mais inteligentes.

Each language version is independently generated for its own context, not a direct translation.

Título: OPTIMER: Fusão Vetorial de Distribuição Ótima é Superior à Mistura de Dados para Pré-treinamento Contínuo

1. O Problema

O Pré-treinamento Contínuo (CPT - Continual Pre-Training) é uma técnica fundamental para adaptar Grandes Modelos de Linguagem (LLMs) a novos idiomas e domínios específicos. No entanto, a abordagem padrão envolve criar uma mistura de dados (data mixture) de vários conjuntos de dados antes do treinamento começar.

Desafio Principal: A proporção de mistura dos dados é um hiperparâmetro sensível e crítico. Uma escolha subótima pode degradar o desempenho do modelo.
Custo Computacional: Determinar a proporção ideal exige experimentação. Como as proporções devem ser fixas antes do início do treinamento, um erro de configuração resulta em desperdício de semanas de tempo de GPU (clusters) antes que o problema seja percebido.
Limitação Atual: Métodos existentes (como DoReMi ou RegMix) tentam estimar proporções via modelos proxy ou regressão, mas ainda exigem que essas proporções sejam fixadas antes do treinamento, sem possibilidade de correção posterior sem retreinamento.

2. Metodologia: OPTIMER

Os autores propõem o OPTIMER, um framework que desacopla a seleção de proporções de dados do processo de treinamento. Em vez de treinar um único modelo com dados misturados, o OPTIMER segue uma abordagem de "treinar e fundir":

Treinamento Independente: Um modelo de pré-treinamento contínuo (CPT) é treinado independentemente para cada conjunto de dados ( $D_i$ ), partindo de um modelo base pré-treinado ( $\theta_{pt}$ ).
Extração de Vetores de Distribuição: Para cada modelo treinado, extrai-se um vetor de distribuição ( $\tau_i$ ), definido como a diferença entre os parâmetros do modelo CPT e o modelo base:
$\tau_i = \theta_{CPT_i} - \theta_{pt}$
Este vetor representa a "mudança de parâmetros" induzida especificamente por aquele domínio ou idioma.
Composição Vetorial: Em vez de re-treinar, os autores fundem os vetores de distribuição de diferentes domínios (e um vetor de ajuste de instruções, $\tau_{it}$ ) usando uma combinação linear ponderada:
$\theta_{merge} = \theta_{pt} + \alpha_{it} \cdot \tau_{it} + \sum_{i=1}^{n} \alpha_i \cdot \tau_i$
Onde $\alpha$ são os pesos de fusão a serem otimizados.
Otimização Bayesiana (TPE): Como a função de avaliação (pontuação em benchmarks) não fornece gradientes para os pesos $\alpha$ $α$ , o OPTIMER utiliza Otimização Bayesiana com o estimador Parzen Tree-structured (TPE).
- O algoritmo busca os pesos ótimos $\alpha^*$ que maximizam o desempenho em um conjunto de desenvolvimento.
- Isso permite encontrar a combinação ideal em minutos, em vez de dias ou semanas.

3. Contribuições Chave

Mudança de Paradigma: Reformula a seleção de proporções de mistura de dados (tradicionalmente uma decisão pré-treinamento) como um problema de otimização post-hoc sobre vetores de distribuição.
Eficiência Extrema: Reduz o custo de busca por proporções ótimas em 15 a 35 vezes comparado aos métodos de mistura de dados tradicionais.
Flexibilidade e Reutilização: Um único pool de vetores de distribuição pode ser re-otimizado para diferentes objetivos (ex: focar em Matemática vs. focar em Japonês) sem nenhum retreinamento, gerando modelos sob demanda.
Interpretabilidade: Os pesos ótimos encontrados podem ser interpretados como proporções de mistura de dados ideais. Retreinar com essas proporções confirma a melhoria, validando a eficácia da abordagem.
Descoberta de Pesos Negativos: O método permite pesos negativos, o que pode ser usado para subtrair efeitos de interferência de certos domínios (ex: remover a influência do inglês ao focar em japonês).

4. Resultados Experimentais

Os experimentos foram realizados no modelo Gemma 3 27B, cobrindo idiomas (Japonês, Chinês, Inglês) e domínios (Matemática, Código).

Desempenho Superior: O OPTIMER superou consistentemente as linhas de base de mistura de dados (DataMix) e métodos de fusão de modelos (como Task Arithmetic, TIES, DARE) em todos os cenários de combinação de conjuntos de dados.
- Melhoria de 2.1 a 6.7 pontos na média de benchmarks em comparação com a mistura de dados padrão.
- Destaque na preservação de capacidades de instruções (IT) e na redução de "alucinações" em tarefas de código (onde métodos de média simples falhavam catastroficamente).
Custo Computacional:
- DataMix: Uma tentativa de busca de proporção leva dias/semanas de GPU.
- OPTIMER: Uma busca de 100 tentativas leva apenas 8.6 horas (vs. 128.9 horas para uma única execução de DataMix), com cada tentativa de fusão levando apenas minutos.
Análise de Vetores:
- Os vetores de distribuição de diferentes domínios são aproximadamente ortogonais (similaridade de cosseno baixa, 0.03–0.31), permitindo combinação linear sem interferência severa.
- A trajetória do CPT no espaço de parâmetros é aproximadamente linear, o que justifica a eficácia da fusão linear.
Generalização: O método também foi aplicado com sucesso ao modelo Gemma-SEA-LION-v4-27B, melhorando significativamente o desempenho em tarefas de idiomas do Sudeste Asiático e em benchmarks gerais.

5. Significado e Impacto

O trabalho estabelece que a otimização de dados para CPT não precisa ser um processo rígido e caro realizado antes do treinamento. Ao transformar a seleção de dados em um problema de fusão de vetores pós-treinamento, o OPTIMER oferece:

Agilidade: Permite iterar rapidamente sobre estratégias de dados sem gastar recursos de treinamento.
Personalização Dinâmica: Facilita a criação de modelos especializados para nichos específicos a partir de um conjunto base de vetores.
Robustez: Evita o colapso de capacidades (como visto em tarefas de código e raciocínio) que ocorre frequentemente com misturas de dados subótimas ou fusões uniformes.

Em resumo, o OPTIMER demonstra que a "engenharia de dados" para LLMs pode ser mais eficiente e eficaz quando realizada através da manipulação inteligente de vetores de parâmetros após o treinamento, em vez de depender de tentativas e erros no pré-treinamento.

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

O Problema: A Mistura "Adivinhada" (Data Mixing)

A Solução: O "OPTIMER" (A Mistura "Mágica" Pós-Forno)

Por que isso é revolucionário?

A Analogia Final: O Mix de Música

Título: OPTIMER: Fusão Vetorial de Distribuição Ótima é Superior à Mistura de Dados para Pré-treinamento Contínuo

1. O Problema

2. Metodologia: OPTIMER

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

From Consensus to Split Decisions: ABC-Stratified Sentiment in Holocaust Oral Histories

CrossTrace: A Cross-Domain Dataset of Grounded Scientific Reasoning Traces for Hypothesis Generation

Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs

Known Intents, New Combinations: Clause-Factorized Decoding for Compositional Multi-Intent Detection

Human-Like Lifelong Memory: A Neuroscience-Grounded Architecture for Infinite Interaction