MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Publicado 2026-03-03

📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um bibliotecário genial (o modelo de IA) que precisa ler e entender livros inteiros, desde manuais técnicos de 10.000 páginas até códigos de programas gigantescos.

O problema? O bibliotecário tradicional (os modelos de IA atuais) usa um método antigo: para encontrar uma informação no final do livro, ele precisa ler tudo o que escreveu antes, uma página por vez, e guardar cada palavra na memória de curto prazo. Se o livro tiver 1 milhão de páginas, a memória dele explode, ele fica lento como uma lesna e, muitas vezes, desmaia (o famoso erro de "memória insuficiente").

O MiniCPM-SALA é a nova solução da equipe OpenBMB para esse problema. Eles criaram um bibliotecário híbrido, mais inteligente e eficiente. Aqui está como funciona, explicado de forma simples:

1. O Segredo: A Mistura Perfeita (Híbrido)

Em vez de usar apenas um método, o MiniCPM-SALA mistura duas estratégias diferentes, como se fosse um time de futebol com dois tipos de jogadores:

O "Detetive de Precisão" (Atenção Esparsa - 25%): Ele é como um detetive que foca nos detalhes. Quando o modelo precisa lembrar de algo muito específico ou complexo, ele usa essa parte para olhar atentamente para as páginas importantes. Ele é preciso, mas consome muita energia se usado o tempo todo.
O "Leitor Rápido" (Atenção Linear - 75%): Ele é como um scanner rápido. Ele lê o livro inteiro de uma vez, entendendo o contexto geral sem guardar cada palavra na memória. É super rápido e econômico, mas às vezes perde detalhes finos.

A Mágica: O MiniCPM-SALA usa o "Leitor Rápido" para a maior parte do trabalho (75% do tempo) para manter a velocidade, e chama o "Detetive" apenas quando precisa de precisão (25% do tempo). O resultado? Um modelo que é rápido como um raio mas preciso como um cirurgião.

2. A Economia de Treinamento (Não comece do zero!)

Normalmente, para criar um bibliotecário assim, você teria que ensiná-lo desde o nascimento (treinar do zero), o que custaria bilhões de dólares e anos de trabalho.

O MiniCPM-SALA fez algo diferente: eles pegaram um bibliotecário que já era muito inteligente (o modelo MiniCPM-4.0) e apenas o reequiparam.

Analogia: É como pegar um carro de corrida já pronto e trocar o motor e o sistema de direção para que ele possa andar na lama e na pista ao mesmo tempo.
Resultado: Eles conseguiram transformar o modelo gastando apenas 25% do dinheiro e tempo que seria necessário para criar um novo do zero. É uma economia de 75%!

3. O Superpoder: Ler Livros Gigantes

O grande trunfo desse modelo é a capacidade de lidar com contextos ultra-longos.

O Problema Antigo: Se você pedir para um modelo comum ler um livro de 1 milhão de páginas, ele esquece o começo antes de chegar ao meio, ou a memória do computador estoura.
A Solução SALA: Graças à mistura de técnicas, o MiniCPM-SALA consegue ler 1 milhão de tokens (palavras/caracteres) em uma única GPU (placa de vídeo) comum, como uma RTX 5090 ou uma A6000D.
Comparação: Enquanto modelos concorrentes de tamanho similar "desmaiam" (dão erro de memória) ao tentar ler 512 mil páginas, o MiniCPM-SALA continua lendo tranquilamente.

4. Velocidade Relâmpago

O papel mostra testes onde o MiniCPM-SALA foi 3,5 vezes mais rápido que os concorrentes ao ler textos longos.

Analogia: Se o concorrente leva 3 minutos para ler e responder a um capítulo de um livro, o MiniCPM-SALA faz isso em menos de 1 minuto, mesmo em computadores pessoais que não são supercomputadores de nuvem.

Resumo em uma frase:

O MiniCPM-SALA é um modelo de IA que aprendeu a ser rápido e econômico na maior parte do tempo, mas super preciso quando necessário, permitindo que computadores comuns leiam e entendam livros inteiros sem travar, tudo isso sendo criado de forma muito mais barata e rápida do que os métodos tradicionais.

É um passo gigante para que qualquer pessoa possa usar IAs poderosas em seus próprios computadores para analisar documentos gigantes, códigos complexos ou horas de transcrições de reuniões.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MiniCPM-SALA

Título: MiniCPM-SALA: Hibridizando Atenção Esparsa e Linear para Modelagem Eficiente de Contexto Ultra-Longo

1. O Problema

A evolução dos Grandes Modelos de Linguagem (LLMs) para aplicações que exigem contextos ultra-longos (milhões de tokens) enfrenta barreiras críticas impostas pela arquitetura Transformer padrão baseada em atenção total (full-attention):

Gargalo Computacional: A complexidade da atenção total cresce quadraticamente com o comprimento da sequência ( $O(N^2)$ ), tornando a inferência extremamente lenta para sequências longas.
Gargalo de Memória (KV-Cache): Durante a geração autoregressiva, o modelo deve armazenar os estados de chave e valor (KV) de todos os tokens históricos. Para um modelo de 8B parâmetros, contextos de milhões de tokens exigem dezenas ou centenas de GB de VRAM, causando erros de Out-of-Memory (OOM) em hardware comum.
Limitações das Soluções Existentes:
- Atenção Esparsa: Melhora a computação, mas ainda exige armazenamento denso do KV-Cache ("computação esparsa, armazenamento denso").
- Atenção Linear: Reduz a complexidade para $O(N)$ , mas frequentemente sofre perda de informação (compressão com perdas), degradando a precisão do modelo em tarefas complexas.

2. Metodologia

O MiniCPM-SALA é uma arquitetura híbrida de 9 bilhões de parâmetros projetada para equilibrar eficiência e fidelidade na modelagem de longo contexto.

Arquitetura Híbrida (SALA)

O modelo integra dois mecanismos de atenção em uma proporção de 1:3 (25% Esparsa / 75% Linear):

25% Atenção Esparsa (InfLLM-V2): Utilizada para capturar dependências de longo alcance com alta fidelidade, garantindo a precisão semântica necessária para detalhes críticos.
75% Atenção Linear (Lightning Attention): Utilizada para processamento global eficiente, reduzindo a complexidade computacional e de memória para $O(N)$ .
Seleção de Camadas: Em vez de uma intercalação aleatória, o modelo utiliza um algoritmo de seleção de camadas para posicionar a atenção esparsa onde ela é mais benéfica para o desempenho downstream.

Técnicas Arquiteturais Adicionais

HyPE (Hybrid Positional Encoding): Combina Rotary Positional Embedding (RoPE) nas camadas de atenção linear (para manter a ordem relativa global) e remove o RoPE nas camadas de atenção esparsa (para evitar o decaimento de informações de longa distância e permitir recuperação precisa).
Output Gates: Portões de saída inseridos após cada bloco de atenção para mitigar problemas como "attention sink" e regular o fluxo de informação.
QK-Normalization: Aplicada para estabilizar o treinamento e evitar picos de ativação em contextos longos.

Estratégia de Treinamento (Transformer-to-Hybrid)

Otimizando custos, o modelo não é treinado do zero. Em vez disso, utiliza um paradigma de treinamento contínuo para converter um modelo Transformer pré-treinado (MiniCPM-4.0) em uma arquitetura híbrida:

Conversão de Arquitetura (HALO): Transforma as camadas de atenção densa em linear, mantendo as camadas iniciais e finais como atenção total para estabilidade.
Treinamento Estável e Decaimento: O processo ocorre em estágios progressivos, aumentando o comprimento da sequência de 4K até 520K tokens, utilizando dados de alta qualidade e sintéticos.
Eficiência de Custo: Este método reduz o custo de treinamento em aproximadamente 75% em comparação ao treinamento do zero, utilizando apenas cerca de 25% dos tokens necessários para treinar um modelo comparável do início.

3. Resultados Principais

Desempenho Geral e Longo Contexto

Capacidades Gerais: O MiniCPM-SALA mantém capacidades gerais (conhecimento, matemática, código) comparáveis a modelos de atenção total de 8B (como Qwen3-8B), com uma pontuação média de 76.53 em benchmarks padrão.
Benchmarks de Longo Contexto:
- No benchmark RULER (128K tokens), alcançou 89.37, superando significativamente a maioria dos baselines.
- No benchmark NoLiMa (128K), obteve 23.86, demonstrando superioridade na recuperação de informações.
- Suporta contextos de até 1 milhão de tokens (1M) com pontuação de 81.6, sem degradação significativa, mesmo tendo sido treinado apenas até 520K tokens (extrapolação sem técnicas auxiliares como YaRN).

Eficiência e Velocidade de Inferência

Velocidade: Em uma GPU NVIDIA A6000D, o modelo é até 3.5x mais rápido que o Qwen3-8B (atenção total) em sequências de 256K tokens.
Memória e Escalabilidade:
- Enquanto o Qwen3-8B falha com erro OOM em 512K/1M tokens, o MiniCPM-SALA processa com sucesso contextos de 1 milhão de tokens.
- Em GPUs de nível de consumidor (NVIDIA RTX 5090), o modelo consegue processar 1M tokens, enquanto o modelo de atenção total falha já em 128K (não quantizado) ou 256K (quantizado).

4. Contribuições Chave

Mecanismo Híbrido Eficiente: Introdução de uma arquitetura que combina 25% de atenção esparsa (InfLLM-V2) e 75% de atenção linear (Lightning Attention), equilibrando precisão e throughput.
Paradigma de Conversão (Transformer-to-Hybrid): Demonstração de que converter modelos pré-treinados existentes em arquiteturas híbridas é uma estratégia altamente eficaz, reduzindo o orçamento de treinamento para ~25% do custo de treinamento do zero.
Desempenho em Hardware Limitado: O modelo democratiza o processamento de contextos ultra-longos, permitindo a execução de tarefas de 1M tokens em GPUs de consumo (como a RTX 5090), onde arquiteturas tradicionais de atenção total são inviáveis.
Extrapolação de Comprimento: Capacidade de generalizar para sequências muito maiores que as usadas no treinamento (até 2M tokens) sem técnicas de ajuste de posição complexas.

5. Significado

O MiniCPM-SALA representa um avanço significativo na viabilidade de aplicações de LLMs que exigem a compreensão de documentos inteiros, repositórios de código massivos e colaborações de longo prazo. Ao resolver o dilema entre eficiência computacional e precisão semântica, e ao reduzir drasticamente a barreira de entrada de hardware (permitindo execução em GPUs de consumidor), o trabalho estabelece um novo padrão para modelos escaláveis e acessíveis de próxima geração focados em aplicações intensivas de informação.

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling