Block-Recurrent Dynamics in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas culinária extremamente complexo, com 12 capítulos (camadas) detalhando como preparar um prato sofisticado. A pergunta que os autores deste estudo se fizeram foi: "Será que, na verdade, esse livro inteiro não é apenas uma versão repetida de 2 ou 3 receitas básicas, escritas de formas ligeiramente diferentes?"

A resposta deles é um sonoro SIM.

Aqui está a explicação do trabalho, traduzida para uma linguagem simples e cheia de analogias:

1. A Grande Descoberta: O "Efeito Loop"

Os pesquisadores estudaram os Vision Transformers (ViTs), que são os "cérebros" de IA modernos que olham para imagens e entendem o que elas são (como reconhecer um gato ou um carro).

Normalmente, achamos que esses modelos funcionam como uma linha de montagem gigante: a imagem passa por 12 etapas diferentes, onde cada etapa faz algo totalmente novo. Mas os autores descobriram que, na verdade, o cérebro da IA funciona mais como um loop de música.

A Analogia: Imagine que você tem uma fita cassete com 12 faixas. Você acha que cada faixa é uma música diferente. Mas, ao analisar, percebe que as faixas 1 a 4 são quase idênticas, as faixas 5 a 8 são outra versão da mesma música, e as 9 a 12 são um terceiro refrão.
A Hipótese (BRH): Eles chamam isso de Hipótese de Recorrência de Blocos. Basicamente, dizem que, em vez de ter 12 "engenheiros" diferentes trabalhando em cada camada, a IA está reutilizando apenas 2 ou 3 engenheiros mestres que fazem o mesmo trabalho várias vezes, apenas ajustando o tom no final.

2. O Experimento do "Raptor" (O Robô Espelho)

Para provar que isso não é apenas uma coincidência visual, eles criaram um novo modelo chamado Raptor.

A Metáfora: Imagine que você tem um pintor famoso (o modelo original) que leva 12 horas para pintar um quadro. Os autores criaram um "aprendiz" (o Raptor) que só tem 2 ou 3 pincéis diferentes.
O Desafio: Eles ensinaram o aprendiz a usar esses poucos pincéis repetidamente, tentando imitar exatamente o que o pintor famoso fazia a cada hora (não apenas o quadro final, mas o processo inteiro).
O Resultado: O aprendiz conseguiu! Com apenas 2 ou 3 blocos de repetição, o Raptor conseguiu pintar um quadro que era 96% a 98% igual ao do pintor famoso, mantendo a mesma velocidade de execução. Isso prova que a complexidade aparente era, na verdade, uma simplicidade oculta.

3. Por que isso acontece? (O Segredo do Treinamento)

Eles descobriram que a IA "aprende" a fazer isso sozinha durante o treinamento, especialmente quando usa uma técnica chamada Profundidade Estocástica (que é como treinar a IA com um pouco de "café" ou "distracção" para não ficar viciada em um único caminho).

A Analogia: É como se você estivesse aprendendo a andar de bicicleta. No começo, você usa todas as pernas de formas diferentes. Mas, com o tempo, seu corpo descobre que existe um movimento de pedalada perfeito e eficiente, e você passa a repeti-lo automaticamente. A IA descobre que reutilizar o mesmo "passo" é mais eficiente do que inventar um novo a cada momento.

4. O Que Acontece Dentro da Cabeça da IA? (Dinâmica)

Ao olhar para dentro do processo, eles viram três coisas fascinantes sobre como a informação viaja:

O "Ímã" de Classes: As imagens (tokens) começam espalhadas, mas conforme passam pelas camadas, elas são atraídas para "bacias" específicas. Se é um gato, a representação da imagem gira e se estabiliza em uma direção específica, como um ímã puxando um prego.
O Token "Chefe" (CLS): Existe um token especial (o cls) que age como o gerente da reunião. No final, ele faz uma virada brusca e rápida para tomar a decisão final, enquanto os outros tokens (as partes da imagem) ficam todos alinhados e calmos, como uma multidão ouvindo o líder.
Simplificação Final: No final do processo, a IA para de fazer cálculos complexos e multidimensionais. Ela colapsa tudo em um espaço simples e baixo, como se estivesse dobrando uma folha de papel gigante até virar um pequeno quadrado fácil de guardar.

5. Por que isso importa? (O Resumo)

Até agora, achávamos que essas IAs eram "caixas pretas" complexas e impossíveis de entender. Este trabalho mostra que elas são, na verdade, muito mais simples do que parecem.

Segurança: Se sabemos que a IA usa apenas 2 ou 3 "receitas" repetidas, fica muito mais fácil auditar e garantir que ela não está fazendo nada perigoso.
Eficiência: Podemos criar IAs menores e mais rápidas que fazem a mesma coisa, economizando energia e dinheiro.
Ciência: Mostra que a inteligência artificial, quando bem treinada, tende a encontrar a solução mais elegante e simples (o "lâmina de Occam"), reutilizando padrões em vez de criar complexidade desnecessária.

Em resumo: A IA não é um labirinto de 12 voltas diferentes. É um corredor reto onde você dá 2 ou 3 passos grandes e repetidos para chegar ao destino. E agora, finalmente, sabemos como contar esses passos.

Each language version is independently generated for its own context, not a direct translation.

Título: Block-Recurrent Dynamics in ViTs

Autores: Mozes Jacobs, Thomas Fel, Richard Hakim, Alessandra Brondetta, Demba Ba, T. Andy Keller.
Instituição: Kempner Institute, Harvard University; University of Osnabrück.
Publicação: ICLR 2026 (arXiv:2512.19941v6).

1. O Problema

Com a consolidação dos Vision Transformers (ViTs) como backbones padrão em visão computacional, surge a necessidade urgente de uma explicação mecânica de sua fenomenologia computacional.

Complexidade vs. Simplicidade: Embora as arquiteturas de Transformers sugiram uma estrutura dinâmica (devido a conexões residuais), não existe um framework estabelecido que interprete a profundidade (número de camadas) como um fluxo bem caracterizado.
Falta de Interpretabilidade Dinâmica: A pesquisa atual em explicabilidade de visão não utiliza análise de sistemas dinâmicos para modelar a estrutura emergente da rede.
Questão Central: A similaridade representacional observada entre camadas adjacentes reflete apenas uma semelhança superficial de saída, ou indica uma reutilização funcional real de blocos computacionais? Ou seja, a rede está efetivamente executando o mesmo algoritmo repetidamente em diferentes estágios?

2. Metodologia e Hipótese

Os autores propõem a Hipótese de Recorrência por Blocos (Block-Recurrent Hypothesis - BRH) e a validam através de uma abordagem construtiva e analítica.

A. Hipótese de Recorrência por Blocos (BRH)

A hipótese postula que, após o treinamento, a profundidade de um ViT se organiza em poucas fases contíguas. A computação das $L$ camadas originais pode ser reescrita com precisão utilizando apenas $k \ll L$ blocos distintos, aplicados de forma recorrente (com pesos compartilhados).

Formalmente, a trajetória interna completa $f_\ell(x)$ pode ser aproximada por uma composição de blocos $B_j$ repetidos $n_j$ vezes, mantendo o custo computacional equivalente.

B. Construção de "Raptor" (Recurrent Approximations to Phase-structured TransfORmers)

Para testar a BRH, os autores desenvolveram um método para criar "surrogates" (substitutos) recorrentes de ViTs pré-treinados:

Descoberta de Fases (Max-Cut): Utilizam um algoritmo de Max-Cut (otimização via programação dinâmica) sobre matrizes de similaridade representacional (cosine similarity) entre camadas para identificar os limites das fases (onde a similaridade cai drasticamente).
Treinamento Híbrido:
- Stage 1 (Teacher Forcing): Cada bloco recorrente é treinado independentemente para prever a próxima camada usando as ativações reais do professor (ViT original) como entrada. Isso garante estabilidade.
- Stage 2 (Autoregressivo): Os blocos são conectados e o modelo é treinado end-to-end usando apenas suas próprias previsões como entrada para a próxima etapa. Isso força o modelo a aprender a dinâmica fechada e a auto-consistência, evitando o train-test mismatch.
Objetivo de Perda: Minimizar a distância de Frobenius entre as ativações intermediárias do Raptor e as do ViT original em todas as camadas (não apenas a saída final).

C. Análise de Sistemas Dinâmicos

Com o Raptor validado, os autores tratam a profundidade do ViT como a evolução temporal de um sistema dinâmico discreto, analisando:

Convergência direcional em esferas unitárias.
Dinâmicas específicas por tipo de token (CLS vs. Patch).
Colapso de rank nas atualizações de camadas tardias.

3. Principais Contribuições e Resultados

A. Evidência Empírica da Estrutura Recorrente

Similaridade em Blocos: Matrizes de similaridade entre camadas em diversos ViTs (DINOv2, SigLip, ViT-Small/Large) exibem consistentemente uma estrutura diagonal em blocos, indicando fases contíguas de alta similaridade.
Validação Funcional: Ao treinar modelos Raptor com apenas 2 ou 3 blocos recorrentes, os autores conseguem recuperar 96% a 98% da precisão de linear probe do DINOv2 (ViT-Base) no ImageNet-1k, mantendo o mesmo custo de inferência (FLOPs).
Generalidade: A estrutura de blocos é reforçada pelo uso de Stochastic Depth (dropout de camadas) durante o treinamento, que aumenta a similaridade entre camadas e a capacidade de compressão recorrente.

B. Implicações Computacionais (Complexidade de Levin)

O trabalho demonstra que ViTs treinados possuem uma viés de simplicidade algorítmica.
Embora a descrição de Kolmogorov (tamanho do programa) possa ser pequena, o Raptor mostra que essa descrição é alcançável sem aumentar o tempo de execução. Isso implica uma baixa Complexidade de Levin (que penaliza tanto o tamanho do programa quanto o tempo de execução), sugerindo que os modelos fundacionais descobrem soluções normativas de baixa complexidade.

C. Análise de Interpretabilidade Dinâmica

A análise da evolução das representações revela três fenômenos chave:

Convergência Direcional para Bacias Angulares: Os tokens convergem para direções estáveis dependentes da classe em uma esfera unitária. Sob pequenas perturbações, as trajetórias exibem auto-correção, retornando à trajetória original.
Dinâmicas Específicas por Token:
- Tokens CLS executam reorientações agudas e tardias (agregação global).
- Tokens de Patch exibem forte coerência tardia, reminiscente de um efeito de campo médio, convergindo rapidamente para sua direção média.
Colapso de Rank e Dinâmica de Baixa Dimensão: Nas camadas tardias, as atualizações entre camadas colapsam para subespaços de baixo rank (aprox. rank 6), indicando que a rede opera em um atrator de baixa dimensionalidade, coordenando atualizações coletivas.

4. Significado e Impacto

Mudança de Paradigma na Interpretabilidade: O trabalho sugere que a complexidade aparente dos ViTs pode ser reduzida a um "programa recorrente compacto". Isso abre novas portas para a interpretabilidade mecânica, permitindo estudar modelos massivos através da lente de sistemas dinâmicos simples.
Eficiência e Compressão: Demonstra que a profundidade excessiva em ViTs pode ser, em parte, uma reutilização iterativa de poucos blocos computacionais. Isso valida a possibilidade de arquiteturas mais eficientes que trocam parâmetros por iterações.
Segurança e Verificação: Ao identificar que o comportamento do modelo segue dinâmicas previsíveis e atratores estáveis, torna-se mais viável verificar e diagnosticar falhas em sistemas de visão crítica.
Fundamento Teórico: A conexão com a Complexidade de Levin oferece uma base teórica para entender por que redes neurais profundas generalizam bem: elas tendem a encontrar soluções que são simples tanto em descrição quanto em custo computacional.

Em resumo, o artigo "Block-Recurrent Dynamics in ViTs" estabelece que a profundidade dos Transformers de Visão não é apenas uma pilha de camadas distintas, mas sim um fluxo dinâmico recorrente que pode ser comprimido e analisado como um sistema de baixa complexidade, oferecendo um novo framework para entender a inteligência visual artificial.