M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a ler um livro inteiro e, no final, responder perguntas sobre ele. O problema é que, para fazer isso, o robô precisa "lembrar" de tudo o que leu.

Até hoje, os robôs mais inteligentes (chamados de Transformers) funcionam como um estudante que tem uma mesa gigante. Para lembrar de algo, ele espalha todas as páginas do livro na mesa. Quanto mais longo o livro, mais espaço na mesa ele precisa. Isso é ótimo para encontrar informações, mas consome muita energia e espaço, e o robô fica lento com livros muito longos.

Outros robôs (chamados de RNNs lineares) funcionam como alguém que lê o livro e tenta guardar tudo na cabeça, mas tem uma "memória de curto prazo" muito pequena. Eles são rápidos e econômicos, mas esquecem detalhes importantes se o livro for muito grande ou se precisarem fazer cálculos complexos (como seguir as regras de um jogo de xadrez ou rastrear quem fez o quê).

Aqui entra o M2RNN (Recurrent Neural Network de Matriz para Matriz), o protagonista deste artigo. Vamos entender como ele funciona com algumas analogias simples:

1. O Problema da "Caixa de Ferramentas" Pequena

Os robôs antigos (RNNs não-lineares) tinham uma caixa de ferramentas (memória) que era apenas um tubo (vetor). Eles podiam fazer coisas inteligentes, mas o tubo era muito estreito. Se o livro fosse grande, o tubo transbordava e eles esqueciam o começo da história.

A solução do M2RNN: Em vez de um tubo, o M2RNN usa uma prateleira gigante (matriz). Agora, em vez de guardar apenas uma ideia por vez, ele pode guardar centenas de conexões ao mesmo tempo, sem precisar aumentar o tamanho do cérebro do robô. É como trocar uma mochila pequena por um armário inteiro.

2. O "Porteiro" Inteligente (Forget Gate)

Imagine que você está lendo um livro e, a cada página, decide o que guardar na memória e o que jogar fora.

Nos robôs antigos, essa decisão era confusa e dependia de tudo o que já estava na memória, o que causava lentidão.
O M2RNN tem um porteiro super-rápido que olha apenas para a página atual e decide: "Isso é importante, guarda na prateleira!" ou "Isso é lixo, joga fora!". Como essa decisão é independente do que já está guardado, o robô pode processar as páginas de forma muito mais eficiente.

3. A Estratégia Híbrida: O Melhor dos Dois Mundos

O artigo descobre que não precisamos substituir todo o sistema. A melhor estratégia é criar um time híbrido:

A maioria dos robôs do time são os "econômicos" (como o Mamba ou Gated DeltaNet), que leem rápido e gastam pouca energia.
Mas, de vez em quando, eles trocam de lugar com um robô M2RNN (o especialista em memória).

A analogia do time de futebol:
Imagine um time onde 7 jogadores são corredores rápidos (lineares), mas 1 jogador é um estrategista genial (M2RNN).

Os corredores mantêm o jogo fluindo rápido.
O estrategista entra em campo apenas para resolver os momentos difíceis: lembrar de quem passou a bola há 10 minutos, entender uma regra complexa ou encontrar uma informação específica em um texto gigante.
Resultado: O time inteiro joga muito melhor, sem precisar de 8 estrategistas (o que seria caro demais).

O Que Eles Conseguiram?

Os pesquisadores testaram isso em robôs de diferentes tamanhos (do pequeno ao gigante) e descobriram:

Memória Perfeita: O M2RNN consegue rastrear informações em textos longos que os outros robôs esquecem. É como se ele nunca perdesse a linha da história, mesmo em livros de 1000 páginas.
Recuperação de Informações: Se você perguntar "Qual foi o nome do personagem que apareceu na página 50?", o M2RNN acha instantaneamente, enquanto os outros ficariam confusos.
Eficiência: Ao usar apenas uma camada de M2RNN em meio a muitas camadas de robôs comuns, eles conseguiram melhorar a inteligência do modelo quase tanto quanto se usassem M2RNN em tudo, mas mantendo a velocidade de treino quase a mesma.

Resumo Final

O M2RNN é como dar ao robô uma prateleira organizada e um porteiro eficiente. Ele resolve o problema de "esquecer coisas em textos longos" e "fazer cálculos complexos" sem deixar o robô lento ou gastar uma fortuna em energia.

A grande sacada do artigo é mostrar que não precisamos reinventar a roda inteira. Basta adicionar um pouco desse "super-robô" (M2RNN) em lugares estratégicos do sistema existente, e pronto: temos modelos de linguagem mais inteligentes, que leem melhor e entendem contextos longos com muito mais facilidade.

Each language version is independently generated for its own context, not a direct translation.

Título: M2RNN: RNNs Não-Lineares com Estados de Valor Matricial para Modelagem de Linguagem Escalável

1. O Problema

O artigo aborda as limitações atuais das arquiteturas dominantes em modelagem de linguagem, especificamente os Transformers e as RNNs Lineares (como Mamba e DeltaNet):

Limitações dos Transformers: Embora altamente paralelizáveis, eles operam na classe de complexidade TC0, o que limita sua capacidade expressiva para tarefas que exigem rastreamento de estado complexo (como execução de código, rastreamento de entidades e composição de permutações). Além disso, sofrem com complexidade quadrática no treinamento e crescimento linear de memória na inferência.
Limitações das RNNs Lineares: Modelos como Mamba e Gated DeltaNet oferecem inferência eficiente e treinamento linear, mas são provadamente menos expressivos que as RNNs não-lineares. Eles falham em tarefas difíceis de rastreamento de estado e têm desempenho inferior em recuperação de contexto (in-context retrieval), pois seu estado recorrente (geralmente vetorial ou de baixa capacidade) pode ser sobrescrito quando o número de associações chave-valor excede sua capacidade.
Limitações das RNNs Não-Lineares Tradicionais (LSTM/GRU): Embora expressivas e capazes de resolver tarefas de rastreamento de estado, elas historicamente têm desempenho inferior em modelagem de linguagem e recuperação de contexto. Isso é atribuído principalmente ao tamanho pequeno do estado oculto (vetorial) em comparação com os estados matriciais das RNNs lineares. Além disso, sofrem de ineficiência no treinamento devido à impossibilidade de paralelização ao longo do comprimento da sequência e ao mau uso de hardware (como tensor cores), exigindo preenchimento (padding) que desperdiça operações de ponto flutuante (FLOPs).

2. Metodologia: M2RNN

Os autores propõem a M2RNN (Matrix-to-Matrix RNN), uma arquitetura de RNN não-linear que utiliza estados ocultos de valor matricial para superar as limitações acima.

Expansão de Estado por Produto Externo: Em vez de manter um estado vetorial $h_t \in \mathbb{R}^d$ , a M2RNN mantém um estado matricial $H_t \in \mathbb{R}^{K \times V}$ . A atualização do estado utiliza um mecanismo de produto externo ( $k_t v_t^\top$ ), similar ao usado em atenção linear e SSMs, permitindo um aumento massivo na capacidade de armazenamento de informações sem um aumento proporcional no número de parâmetros.
Transição Não-Linear Expressiva: A equação de atualização do estado é:
$Z_t = \tanh(H_{t-1}W + k_t v_t^\top)$
$H_t = f_t H_{t-1} + (1 - f_t)Z_t$
Onde $W$ é uma matriz de transição densa e não dependente da entrada, permitindo expressividade computacional superior (capaz de simular autômatos finitos determinísticos e resolver problemas fora da classe TC0).
Porta de Esquecimento Independente: Diferente de LSTMs/GRUs, a porta de esquecimento ( $f_t$ ) na M2RNN depende apenas da entrada atual ( $x_t$ ) e não do estado anterior. Isso permite o cálculo paralelo da porta de esquecimento, facilitando a implementação eficiente.
Hibridização: Devido ao custo computacional das camadas M2RNN, os autores exploram arquiteturas híbridas onde camadas M2RNN são intercaladas com camadas de atenção ou RNNs lineares (como Gated DeltaNet ou Mamba-2).

3. Contribuições Chave

Arquitetura M2RNN: Introdução de uma RNN não-linear com estados matriciais que combina a expressividade teórica das RNNs não-lineares com a eficiência de estado das RNNs lineares.
Prova de Expressividade e Generalização: Demonstração teórica e empírica de que a M2RNN pode realizar todas as tarefas de RNNs não-lineares vetoriais e alcança generalização perfeita em comprimentos de sequência não vistos durante o treinamento em tarefas de rastreamento de estado (ex: grupo de permutação $S_3$ ).
Otimização de Hardware: A expansão de estado baseada em produto externo permite o uso eficiente de Tensor Cores sem a necessidade de padding no dimensão de batch, resolvendo o problema de desperdício de FLOPs observado em implementações anteriores de RNNs não-lineares (como FlashRNN).
Estratégias de Paralelismo Tensorial (TP): Proposição de duas estratégias para treinar M2RNN em escala:
- Topology-Aware: Usa uma formulação de valores agrupados, não exigindo comunicação extra além do padrão.
- Topology-Independent: Preserva a contagem de parâmetros independente do tamanho do mundo TP, exigindo comunicações adicionais (AllReduce) para sincronização.
Implementação Eficiente: Criação de kernels personalizados em Triton para o forward e backward pass, otimizados para GPUs NVIDIA H100.

4. Resultados Experimentais

Os modelos foram treinados em conjuntos de dados de alta qualidade (Nemotron-CC-v2) com escalas de 410M (denso) e 7B (MoE com 1.1B ativos).

Modelagem de Linguagem:
- Em configurações puras, a M2RNN iguala o desempenho do Mamba-2 e supera o Gated DeltaNet em alguns benchmarks (ex: LAMBADA).
- Em configurações Híbridas (intercalando com atenção), o Hybrid M2RNN supera os híbridos equivalentes de Mamba-2 e Gated DeltaNet em perplexidade (ganho de 0.4–0.5 pontos no modelo 7B).
Rastreamento de Estado: A M2RNN alcança precisão perfeita (≥99.5%) em tarefas de permutação ( $S_3$ ) em comprimentos de sequência muito maiores que os usados no treinamento, superando modelos lineares que falham na generalização de comprimento.
Recuperação de Contexto (In-Context Retrieval):
- Em benchmarks reais (SQuAD, NQ, DROP), o Hybrid M2RNN supera significativamente os modelos puramente recorrentes e se aproxima ou supera os Transformers.
- No benchmark RULER (haystack), a adição de camadas M2RNN a modelos híbridos melhora a recuperação em contextos longos não vistos durante o treinamento.
Long-Context (LongBench):
- Modelos híbridos com M2RNN superam as melhores arquiteturas lineares híbridas em até 8 pontos de precisão média em tarefas de resumo, codificação e few-shot learning.
Eficiência de Treinamento:
- Substituir apenas uma única camada recorrente em uma arquitetura híbrida por M2RNN resulta em ganhos de precisão comparáveis ao uso de múltiplas camadas, com impacto mínimo no throughput de treinamento (redução de apenas ~6% em contextos de 16k).

5. Significado e Conclusão

O trabalho estabelece que as camadas de RNN não-lineares são um bloco de construção viável e superior para modelos de linguagem escaláveis, desde que o problema do tamanho do estado e da eficiência de hardware seja resolvido.

A M2RNN demonstra que a não-linearidade não é o gargalo para o desempenho em modelagem de linguagem; o gargalo era a capacidade de estado.
A arquitetura oferece o melhor dos dois mundos: a capacidade de rastreamento de estado e generalização de longo prazo das RNNs não-lineares e a eficiência de inferência e treinamento das RNNs lineares/SSMs.
A proposta de usar camadas M2RNN de forma esparsa (híbrida) oferece um caminho prático para integrar essa expressividade em modelos de produção sem sacrificar drasticamente a velocidade de treinamento, posicionando a M2RNN como uma alternativa promissora aos Transformers e SSMs puros para tarefas que exigem raciocínio complexo e memória de longo prazo.

M2^22RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

1. O Problema da "Caixa de Ferramentas" Pequena

2. O "Porteiro" Inteligente (Forget Gate)

3. A Estratégia Híbrida: O Melhor dos Dois Mundos

O Que Eles Conseguiram?

Resumo Final

Título: M2RNN: RNNs Não-Lineares com Estados de Valor Matricial para Modelagem de Linguagem Escalável

1. O Problema

2. Metodologia: M2RNN

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Human-like Working Memory Interference in Large Language Models

Belief-State RWKV for Reinforcement Learning under Partial Observability

M $^2$ RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling