Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um quebra-cabeça muito difícil, como um jogo de lógica complexo. A maneira tradicional de fazer isso com Inteligência Artificial (IA) é pedir para o modelo "pensar em voz alta", escrevendo cada passo do raciocínio em texto, como se fosse uma pessoa falando consigo mesma. Isso funciona, mas é lento e gasta muita energia, como se você tivesse que escrever um livro inteiro para resolver um problema simples.

Este artigo apresenta uma ideia diferente: pensar em silêncio.

Aqui está a explicação do trabalho, usando analogias simples:

1. O Problema: "Pensar em Voz Alta" vs. "Pensar em Silêncio"

A maioria dos modelos de IA atuais usa o método de "Cadeia de Pensamento" (Chain-of-Thought). É como se você tivesse que escrever um rascunho de 10 páginas para resolver uma conta de matemática. O modelo gera palavras (tokens) visíveis.

Os autores deste trabalho focam em um modelo chamado TRM (Modelo Recursivo Minúsculo). Em vez de escrever o raciocínio, o modelo faz um "loop" mental. Ele pega uma ideia inicial, refina-a em sua própria "mente" (espaço oculto) várias vezes, e só no final dá a resposta. É como se você fechasse os olhos, girasse em torno de um problema mentalmente várias vezes, e só abrisse os olhos quando tivesse a solução. Isso é muito mais eficiente.

2. A Pergunta: O Motor do Carro Importa?

O modelo original (TRM) usa um tipo de "motor" chamado Transformer (o mesmo que o GPT usa) para fazer esse pensamento mental. É um motor potente, mas pesado.

Os pesquisadores se perguntaram: "E se trocarmos esse motor por um mais moderno e eficiente, chamado Mamba-2?"
O Mamba-2 é conhecido por ser rápido e eficiente, como um carro híbrido que economiza combustível. Mas será que ele é inteligente o suficiente para fazer esse tipo de raciocínio complexo? Será que, ao trocar o motor, o carro para de funcionar?

3. A Solução: O "Híbrido"

Eles criaram uma versão do modelo onde trocaram o motor antigo (Transformer) por um motor novo e híbrido (Mamba-2 + um pouco de atenção).

A Analogia: Imagine que o Transformer é um engenheiro que lê todos os documentos de uma vez, mas demora. O Mamba-2 é um especialista que lê os documentos em ordem, muito rápido, mas às vezes precisa de um "olho de fora" para ver o quadro geral. Eles misturaram os dois: o Mamba-2 faz o trabalho pesado de processamento rápido, e um pouco de atenção garante que ele não perca o contexto.

4. O Resultado: O Híbrido Ganhou na "Exploração"

Eles testaram os dois modelos em desafios de lógica (como o ARC-AGI, que é como um Olympíada de raciocínio visual).

O que aconteceu: O modelo com o motor híbrido (Mamba-2) não foi apenas "tão bom quanto" o antigo; ele foi melhor em uma coisa específica.
A Analogia da Loteria: Imagine que o modelo precisa chutar a resposta certa entre milhares de possibilidades.
- O modelo antigo (Transformer) era como um apostador que escolhe 10 números, mas foca muito em apenas 2 ou 3 deles. Ele é muito confiante no seu "palpite principal".
- O modelo novo (Híbrido) foi como um apostador que escolhe 100 números diferentes. Ele não é tão confiante em um único palpite, mas cobre mais terreno.
- O Ganho: O modelo híbrido gerou mais "candidatos" corretos. Se você der a ele 100 chances de acertar (em vez de apenas 1), ele acerta muito mais vezes. Isso significa que ele "pensa" de formas mais variadas e criativas, explorando mais caminhos antes de decidir.

5. Por que isso é importante?

Eficiência: O Mamba-2 é mais rápido e consome menos energia.
Inteligência: O estudo provou que você não precisa de um "motor" gigante e pesado para raciocinar bem. Você pode usar motores mais leves e inteligentes.
Diversidade: O modelo híbrido mostrou que, às vezes, ter uma mente que explora muitas ideias diferentes (mesmo que algumas sejam erradas) é melhor do que ter uma mente que é super-confiante em apenas uma ideia.

Resumo Final

Os autores descobriram que trocar o "motor" de um modelo de raciocínio minúsculo por uma tecnologia mais moderna (Mamba-2) não só manteve a inteligência, como a tornou mais criativa e exploradora.

É como se eles tivessem trocado o motor de um carro de corrida antigo por um motor híbrido de última geração. O carro continua sendo rápido, mas agora ele consegue explorar mais rotas diferentes no mapa sem se perder, encontrando o caminho mais curto com mais facilidade. Isso abre a porta para criar IAs que pensam de forma mais profunda, mas que são muito mais leves e rápidas para rodar em computadores comuns.

Each language version is independently generated for its own context, not a direct translation.

Título: Raciocínio Recursivo Minúsculo com Híbrido Mamba-2 e Atenção

Autores: Wenlong Wang & Fergal Reid (Intercom, Dublin)

1. Problema e Motivação

O campo de raciocínio em modelos de linguagem tem evoluído de modelos puramente baseados em escala ("modelos maiores") para abordagens que utilizam mais tempo de inferência ("mais tempo de pensamento").

Raciocínio Recursivo Latente: Trabalhos recentes, como o Tiny Recursive Model (TRM), demonstraram que redes extremamente pequenas (7M de parâmetros) podem alcançar alto desempenho em tarefas de raciocínio abstrato (como ARC-AGI) através de "recursão latente". Neste processo, o modelo refina iterativamente suas representações ocultas sem emitir tokens intermediários visíveis.
A Lacuna: O TRM original utiliza blocos de Transformer (baseados em atenção) como operador de atualização. Isso levanta a questão fundamental: operadores alternativos com recorrência inerente, como os Modelos de Espaço de Estado (SSMs) do tipo Mamba-2, podem substituir os blocos de Transformer no arcabouço recursivo sem degradar a capacidade de raciocínio?
Hipótese: A recorrência do estado espaço do Mamba-2 ( $h_t = a_t h_{t-1} + B_t x_t$ ) é, em si, uma forma de refinamento iterativo. Integrá-lo ao raciocínio recursivo poderia oferecer uma base mais eficiente e natural para o "pensamento" interno, potencialmente melhorando a cobertura de candidatos corretos.

2. Metodologia

Os autores propõem uma variante do TRM onde os blocos de Transformer são substituídos por operadores híbridos que combinam Mamba-2 e mecanismos de mistura cruzada (atenção ou MLP).

Arquitetura Proposta

Estrutura Recursiva: Mantém-se a mesma estrutura do TRM original, com dois estados latentes ( $z_H$ para alto nível e $z_L$ para baixo nível) atualizados através de $H$ ciclos externos e $L$ ciclos internos.
Operadores Híbridos:
- TR-mamba2attn: Substitui os blocos de atenção por uma pilha: Mamba-2 → Mamba-2 → Atenção → MLP. Isso combina o processamento sequencial eficiente do Mamba-2 com a capacidade de mistura bidirecional da atenção.
- TR-mamba2mlpt: Substitui a atenção por MLP-t (MLP transposto), que opera na dimensão transposta para comunicação "todos-para-todos" sem atenção explícita.
Paridade de Parâmetros: Para isolar o efeito do operador, os modelos foram calibrados para ter quase o mesmo número de parâmetros:
- TRM-attn (Baseline): ~6.83M parâmetros.
- TR-mamba2attn (Híbrido): ~6.86M parâmetros.
Normalização (Crítico): O artigo enfatiza o uso de Post-Norm (normalização após a adição residual) em vez de Pre-Norm. Em recursões "desenroladas" (unrolled), o Pre-Norm pode permitir que a magnitude do fluxo residual cresça indefinidamente, causando instabilidade (NaN). O Post-Norm garante que a escala do estado oculto permaneça limitada, independentemente da profundidade da recursão.

3. Contribuições Principais

Primeiro Modelo Híbrido Mamba para Raciocínio Latente: Os autores são os primeiros a integrar operadores Mamba-2 híbridos em uma arquitetura de raciocínio recursivo latente.
Validação Empírica no ARC-AGI-1: Demonstração de que o modelo híbrido supera o baseline de atenção na métrica oficial (Pass@2) e em métricas de cobertura superior (Pass@K alto), mantendo paridade no Pass@1.
Análise de Trade-off Cobertura vs. Seleção: Evidência de que o Mamba-2 melhora a diversidade de candidatos (cobertura) sem sacrificar a qualidade da seleção do melhor candidato (top-1).

4. Resultados Experimentais

ARC-AGI-1 (Tarefa de Raciocínio Abstrato)

Pass@2 (Métrica Oficial): O modelo híbrido (TR-mamba2attn) alcançou 45.88%, uma melhoria de +2.0% em relação ao baseline TRM-attn (43.88%).
Pass@K (K > 2): A vantagem do híbrido cresce conforme K aumenta. Em Pass@100, a melhoria foi de +4.75% (65.25% vs 60.50%).
Pass@1: O desempenho foi quase idêntico (40.50% vs 40.75%), indicando que o modelo híbrido mantém a capacidade de selecionar a melhor resposta, mas gera mais respostas corretas dentro do conjunto de candidatos.
Curvas de Treinamento: A melhoria na cobertura (Pass@2 e Pass@100) emerge cedo no treinamento e se mantém estável, sugerindo uma propriedade intrínseca da arquitetura e não um artefato tardio.

Sudoku e Labirintos (Maze)

Sudoku (Grade 9x9): Modelos baseados em MLP-t (mistura densa) superaram os baseados em atenção. O híbrido Mamba-2+MLP-t teve desempenho ligeiramente inferior ao baseline MLP-t puro, sugerindo que tarefas de satisfação de restrições em grades pequenas beneficiam-se mais de comunicação densa do que de processamento sequencial.
Labirinto (Grade 30x30): Modelos puramente MLP-t falharam completamente (0% de acurácia). O híbrido TR-mamba2attn alcançou 80.6% de acurácia, superando o baseline de atenção (60.8%), destacando a importância do processamento sequencial (Mamba) para tarefas espaciais de maior escala.

Análise de Estatísticas de Predição

Cobertura: O modelo híbrido gerou 27% mais candidatos únicos por quebra-cabeça (339.5 vs 266.6) e exibiu maior entropia de votos, indicando uma exploração mais diversificada do espaço de soluções.
Seleção: O modelo de atenção (baseline) mostrou maior concentração de votos no candidato #1 (41.1% vs 32.9%), explicando por que ambos mantêm paridade no Pass@1.
Conclusão da Análise: O Mamba-2 contribui com trajetórias de solução distintas durante a augmentação, aumentando a diversidade do pool de candidatos sem degradar a qualidade da melhor previsão.

5. Significado e Conclusão

O trabalho valida que operadores baseados em SSM (State Space Models), especificamente o Mamba-2, são candidatos viáveis e eficazes no espaço de design de operadores para raciocínio recursivo.

Eficiência e Capacidade: A introdução do Mamba-2 não degrada a capacidade de raciocínio; pelo contrário, melhora a cobertura de soluções corretas, o que é crucial para tarefas onde múltiplas tentativas ou uma busca diversificada são necessárias.
Trade-off Arquitetural: O estudo revela um trade-off entre "cobertura" (gerar muitas soluções corretas, favorecido pelo Mamba) e "seleção decisiva" (concentrar votos na melhor solução, favorecido pela atenção pura).
Futuro: O trabalho abre caminho para investigar se o loop recursivo externo pode ser internalizado nas atualizações de estado do SSM, aproveitando a recorrência interna inerente do Mamba para um raciocínio ainda mais eficiente.

Em suma, o artigo demonstra que a combinação de processamento sequencial eficiente (Mamba-2) com mistura cruzada (Atenção) em uma estrutura recursiva latente é uma estratégia superior para melhorar a robustez e a cobertura de modelos de raciocínio minúsculos.