Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cérebro superinteligente (um Modelo de Linguagem Grande, ou LLM) que é incrivelmente bom em escrever, conversar e resolver problemas. No entanto, esse cérebro tem um "problema de memória": ele só consegue lembrar de cerca de 8.000 palavras de uma vez. Se você tentar contar uma história muito longa ou entregar um livro inteiro para ele ler, ele começa a esquecer o início da frase, alucina fatos ou simplesmente "trava" porque a memória dele estourou.

Até hoje, para consertar isso, os cientistas tentavam duas coisas:

Treinar o cérebro do zero com livros gigantes (o que custa milhões de dólares e demora anos).
Forçar o cérebro a lembrar de tudo, o que deixa o processo super lento e pesado.

Os autores deste artigo (publicado na conferência ICLR 2026) criaram uma solução inteligente chamada SHAREDLLM. Eles não treinaram um novo cérebro do zero; eles ensinaram o cérebro antigo a usar um sistema de "anotações inteligentes".

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: A "Pilha de Papel" Infinita

Imagine que você está em uma sala de aula e o professor pede para você ler um livro de 1.000 páginas e responder uma pergunta sobre o capítulo 500.

O jeito antigo: Você tenta segurar todas as 1.000 páginas na sua mão ao mesmo tempo. Suas mãos (a memória do computador) ficam cheias, você deixa cair papéis, e demora muito para encontrar a página certa.
O jeito SHAREDLLM: Você não segura o livro inteiro. Você pede para um assistente rápido (o "modelo inferior") ler o livro para você e fazer um resumo inteligente.

2. A Solução: O Assistente e o "Árvore de Contexto"

O SHAREDLLM usa dois "cérebros" que são, na verdade, a mesma pessoa, mas com funções diferentes:

O Assistente (Modelo Inferior): Ele pega o texto gigante e o divide em pedaços. Em vez de apenas resumir tudo de forma chata, ele cria uma Árvore de Contexto.
- A Analogia da Árvore: Imagine que o texto é uma floresta. O assistente não olha para cada folha individualmente de imediato. Ele olha para o topo da árvore (o resumo geral). Se a sua pergunta é sobre "o pássaro azul", ele desce um galho para ver os detalhes. Se a pergunta é sobre "a cor do céu", ele fica no topo.
- Ele decide o que é importante. Se uma parte do texto é irrelevante para sua pergunta, ele a "comprime" (transforma em um resumo curto). Se é crucial, ele guarda os detalhes finos. Isso é como ter um mapa que mostra apenas as estradas que você vai usar, ignorando as que você não vai.
O Professor (Modelo Superior): Ele é o cérebro principal que vai responder sua pergunta. Ele não precisa ler o livro inteiro. Ele recebe apenas os resumos inteligentes e os detalhes específicos que o assistente selecionou da "árvore".
- O Pulo do Gato: O assistente e o professor são "irmãos gêmeos" (usam a mesma base de conhecimento). Por isso, eles se entendem perfeitamente sem precisar de um longo treinamento para aprender a linguagem um do outro.

3. A Mágica da "Auto-Injeção"

O nome técnico é "Self-Injection" (Auto-injeção). Imagine que o assistente passa um bilhete para o professor no meio da aula, mas de forma muito rápida e direta, sem precisar passar por todos os corredores da escola.

Em vez de o professor ter que reler tudo, ele recebe as "chaves" (informações comprimidas) diretamente nas camadas mais profundas do seu cérebro, onde a mágica acontece. Isso economiza muita energia e tempo.

4. Por que isso é incrível?

Velocidade: Enquanto outros métodos tentam ler tudo (o que é lento como um caracol), o SHAREDLLM pula direto para o que importa. É como usar o "Ctrl+F" (buscar) em um livro gigante em vez de ler página por página. O artigo diz que é 3 vezes mais rápido que métodos antigos.
Memória: Ele não precisa de um computador gigante para segurar o livro todo. Ele guarda apenas o que é necessário.
Resultados: Mesmo tendo sido treinado apenas com textos curtos (8.000 palavras), ele consegue entender textos de 128.000 palavras (como um livro inteiro) sem esquecer nada importante. Ele generaliza muito bem.

Resumo Final

O SHAREDLLM é como ter um bibliotecário super-rápido (o modelo inferior) que organiza uma biblioteca gigante em uma árvore de resumos. Quando você faz uma pergunta, o bibliotecário não te entrega o livro inteiro; ele te entrega apenas as páginas exatas e os resumos relevantes, organizados de forma que o escritor principal (o modelo superior) possa escrever a resposta perfeita instantaneamente.

Isso permite que a Inteligência Artificial leia livros inteiros, analise horas de transcrições e entenda contextos enormes, sem precisar de computadores caríssimos ou demorar horas para responder. É uma forma inteligente de "esticar" a memória da IA sem gastar uma fortuna.

Each language version is independently generated for its own context, not a direct translation.

Título do Artigo: STACKED FROM ONE: MULTI-SCALE SELF-INJECTION FOR CONTEXT WINDOW EXTENSION

Autores: Wei Han, Pan Zhou, Shuicheng Yan (SUTD, SMU, NUS)
Modelo Proposto: SHAREDLLM

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) contemporâneos enfrentam um gargalo crítico: a limitação da janela de contexto. Quando o texto de entrada excede esse limite, o desempenho do modelo degrada-se severamente ou ocorre alucinação.
As soluções existentes apresentam desvantagens significativas:

Pré-treinamento Contínuo: Exige aquisição massiva de dados e custos computacionais proibitivos.
Métodos de Extrapolacão Posicional (ex: YaRN, PI): Embora permitam "treinar curto, testar longo", muitas vezes resultam em baixa eficiência e complexidade quadrática de atenção ( $O(T^2)$ ), levando a erros de memória (OOM) em contextos longos (ex: 128K tokens).
Compressão de Prompt e Streaming: Métodos como StreamingLLM ou compressão de prompts muitas vezes falham em estender verdadeiramente a janela de contexto ou são incompatíveis com implementações de alta performance como o FlashAttention, resultando em velocidades de inferência lentas.

2. Metodologia: SHAREDLLM

O SHAREDLLM é uma arquitetura leve e hierárquica projetada para estender a janela de contexto sem a necessidade de pré-treinamento extensivo ou alinhamento complexo de espaços ocultos.

Arquitetura Geral

O sistema consiste em dois modelos empilhados derivados das mesmas camadas de um LLM de curto contexto existente (o mesmo checkpoint):

Modelo Inferior (Compressor): Atua como um codificador. Recebe o contexto passado ( $X_C$ ), divide-o em blocos e comprime-os em representações compactas e estruturadas.
Modelo Superior (Decodificador): Atua como o gerador principal. Recebe o contexto de execução atual ( $X_D$ , ex: a pergunta) e integra as informações comprimidas do modelo inferior para gerar a resposta.

Mecanismo de "Self-Injection" (Auto-injeção)

A inovação central é a auto-injeção. Em vez de usar dois modelos diferentes (heterogêneos), ambos os modelos são inicializados a partir das mesmas camadas de um LLM base.

A transferência de informação ocorre exclusivamente nas camadas mais baixas (camadas $1 $a$ M$).
O modelo inferior comprime os blocos de contexto e injeta os estados Key-Value (KV) comprimidos diretamente nas camadas inferiores do modelo superior.
Isso elimina a necessidade de passagens forward longas redundantes e operações de atenção cruzada pesadas em todas as camadas, reduzindo drasticamente o custo computacional.

Estrutura de Dados: Context Tree (Árvore de Contexto)

Para gerenciar a compressão de forma eficiente e dependente da consulta, o modelo utiliza uma estrutura de árvore binária dinâmica:

Construção Dinâmica e Dependente da Consulta: Dado um bloco de texto e uma consulta (query), o algoritmo decide recursivamente quais nós da árvore expandir.
- Para tarefas de Modelagem de Linguagem (sem instrução explícita), utiliza-se uma política determinística (seleção contínua da direita) para simular padrões de atenção úteis.
- Para tarefas de Seguimento de Instruções, utiliza-se uma política query-aware: calcula-se a similaridade semântica entre a consulta e os sub-blocos (filhos esquerdo/direito) para selecionar apenas os nós mais relevantes.
Compressão Multi-escala:
- Nós superiores (raiz) representam o contexto de forma granular grossa (coarse-grained) com alta taxa de compressão.
- Nós inferiores (folhas) preservam detalhes granulares finos (fine-grained) com menor compressão.
- Isso permite que o modelo foque em detalhes relevantes para a tarefa enquanto mantém um resumo geral do contexto.
Downsampling de KV: Os estados KV dos nós preservados são uniformemente downsampled (subamostrados) para reduzir o comprimento da sequência, mantendo a distância equidistante dos tokens.

3. Principais Contribuições

Arquitetura Hierárquica Eficiente: Proposta do SHAREDLLM, que utiliza dois modelos empilhados com mecanismos de chave-valor compartilhados, minimizando parâmetros ajustáveis.
Árvore de Contexto Dinâmica: Desenvolvimento de uma estrutura de dados em árvore que permite a codificação e recuperação de informações contextuais de forma "do grosso ao fino" (coarse-to-fine), adaptando-se dinamicamente à consulta para economizar memória e tempo.
Auto-injeção (Self-Injection): Eliminação da necessidade de pré-treinamento adicional ou alinhamento de espaços ocultos, permitindo o fine-tuning direto de checkpoints existentes de LLMs de curto contexto.
Desempenho e Eficiência: Demonstração de que o modelo generaliza para sequências de 128K tokens sendo treinado apenas com sequências de 8K tokens, superando ou igualando baselines avançadas com menor pegada de memória e maior velocidade de inferência.

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos como LLaMA-2, LLaMA-3 e Mistral-7B.

Generalização de Comprimento (Extrapolação):
- O SHAREDLLM evita a "explosão de perplexidade" em 128K tokens, mantendo desempenho estável.
- Supera métodos como CEPE e YaRN em tarefas de modelagem de linguagem (RedPajama, PG19, ProofPile).
Benchmarks de Compreensão de Longo Contexto:
- No LongBench e InfiniBench, o modelo obteve pontuações superiores ou comparáveis aos melhores baselines (como Activation Beacon e LongAlpaca) em tarefas de QA (único e múltiplo documento), sumarização, raciocínio e código.
Eficiência Computacional:
- Memória: O SHAREDLLM reduz significativamente o uso de memória GPU em comparação com métodos de atenção completa (que sofrem OOM em 128K) e métodos de streaming.
- Velocidade: Apresenta um speedup de 2x em relação a arquiteturas de streaming e 3x em relação a arquiteturas encoder-decoder tradicionais, graças à compressão nas camadas inferiores e compatibilidade com FlashAttention.
Recuperação de Passkey (Needle-in-a-Haystack):
- O modelo demonstra alta precisão na recuperação de informações específicas em contextos massivos, mantendo a acurácia mesmo com o aumento do comprimento da entrada.

5. Significado e Impacto

O trabalho SHAREDLLM representa um avanço significativo na viabilidade prática de LLMs de contexto ultra-largo.

Acessibilidade: Ao permitir o uso de checkpoints de LLMs de curto contexto (disponíveis publicamente) sem a necessidade de pré-treinamento massivo ou alinhamento complexo, democratiza o acesso a capacidades de longo contexto.
Eficiência Operacional: A redução no custo de memória e tempo de inferência torna possível a execução de modelos em hardware mais acessível, removendo barreiras para aplicações em domínios que exigem análise de documentos extensos (jurídico, médico, científico).
Paradigma de Design: Introduz o conceito de "auto-injeção" e estruturas de dados hierárquicas dinâmicas como uma alternativa superior aos métodos de compressão estática ou reescalonamento posicional puro.

Em resumo, o SHAREDLLM oferece um equilíbrio ótimo entre eficiência, custo de treinamento e precisão, estabelecendo um novo estado da arte para a extensão de janelas de contexto em modelos de linguagem.