MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

O artigo apresenta o MiniCPM-SALA, uma arquitetura híbrida de 9B parâmetros que combina atenção esparsa e linear para superar as limitações de memória e custo computacional dos Transformers, permitindo o processamento eficiente de contextos de até 1 milhão de tokens com uma redução de 75% nos custos de treinamento contínuo.

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um bibliotecário genial (o modelo de IA) que precisa ler e entender livros inteiros, desde manuais técnicos de 10.000 páginas até códigos de programas gigantescos.

O problema? O bibliotecário tradicional (os modelos de IA atuais) usa um método antigo: para encontrar uma informação no final do livro, ele precisa ler tudo o que escreveu antes, uma página por vez, e guardar cada palavra na memória de curto prazo. Se o livro tiver 1 milhão de páginas, a memória dele explode, ele fica lento como uma lesna e, muitas vezes, desmaia (o famoso erro de "memória insuficiente").

O MiniCPM-SALA é a nova solução da equipe OpenBMB para esse problema. Eles criaram um bibliotecário híbrido, mais inteligente e eficiente. Aqui está como funciona, explicado de forma simples:

1. O Segredo: A Mistura Perfeita (Híbrido)

Em vez de usar apenas um método, o MiniCPM-SALA mistura duas estratégias diferentes, como se fosse um time de futebol com dois tipos de jogadores:

  • O "Detetive de Precisão" (Atenção Esparsa - 25%): Ele é como um detetive que foca nos detalhes. Quando o modelo precisa lembrar de algo muito específico ou complexo, ele usa essa parte para olhar atentamente para as páginas importantes. Ele é preciso, mas consome muita energia se usado o tempo todo.
  • O "Leitor Rápido" (Atenção Linear - 75%): Ele é como um scanner rápido. Ele lê o livro inteiro de uma vez, entendendo o contexto geral sem guardar cada palavra na memória. É super rápido e econômico, mas às vezes perde detalhes finos.

A Mágica: O MiniCPM-SALA usa o "Leitor Rápido" para a maior parte do trabalho (75% do tempo) para manter a velocidade, e chama o "Detetive" apenas quando precisa de precisão (25% do tempo). O resultado? Um modelo que é rápido como um raio mas preciso como um cirurgião.

2. A Economia de Treinamento (Não comece do zero!)

Normalmente, para criar um bibliotecário assim, você teria que ensiná-lo desde o nascimento (treinar do zero), o que custaria bilhões de dólares e anos de trabalho.

O MiniCPM-SALA fez algo diferente: eles pegaram um bibliotecário que já era muito inteligente (o modelo MiniCPM-4.0) e apenas o reequiparam.

  • Analogia: É como pegar um carro de corrida já pronto e trocar o motor e o sistema de direção para que ele possa andar na lama e na pista ao mesmo tempo.
  • Resultado: Eles conseguiram transformar o modelo gastando apenas 25% do dinheiro e tempo que seria necessário para criar um novo do zero. É uma economia de 75%!

3. O Superpoder: Ler Livros Gigantes

O grande trunfo desse modelo é a capacidade de lidar com contextos ultra-longos.

  • O Problema Antigo: Se você pedir para um modelo comum ler um livro de 1 milhão de páginas, ele esquece o começo antes de chegar ao meio, ou a memória do computador estoura.
  • A Solução SALA: Graças à mistura de técnicas, o MiniCPM-SALA consegue ler 1 milhão de tokens (palavras/caracteres) em uma única GPU (placa de vídeo) comum, como uma RTX 5090 ou uma A6000D.
  • Comparação: Enquanto modelos concorrentes de tamanho similar "desmaiam" (dão erro de memória) ao tentar ler 512 mil páginas, o MiniCPM-SALA continua lendo tranquilamente.

4. Velocidade Relâmpago

O papel mostra testes onde o MiniCPM-SALA foi 3,5 vezes mais rápido que os concorrentes ao ler textos longos.

  • Analogia: Se o concorrente leva 3 minutos para ler e responder a um capítulo de um livro, o MiniCPM-SALA faz isso em menos de 1 minuto, mesmo em computadores pessoais que não são supercomputadores de nuvem.

Resumo em uma frase:

O MiniCPM-SALA é um modelo de IA que aprendeu a ser rápido e econômico na maior parte do tempo, mas super preciso quando necessário, permitindo que computadores comuns leiam e entendam livros inteiros sem travar, tudo isso sendo criado de forma muito mais barata e rápida do que os métodos tradicionais.

É um passo gigante para que qualquer pessoa possa usar IAs poderosas em seus próprios computadores para analisar documentos gigantes, códigos complexos ou horas de transcrições de reuniões.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →