Predictive Coding Graphs are a Superset of Feedforward Neural Networks

O artigo demonstra que os Grafos de Codificação Preditiva (PCGs) constituem um conjunto matematicamente superior às redes neurais feedforward, posicionando-os como uma generalização mais ampla dentro do aprendizado de máquina contemporâneo.

Björn van Zwol

Publicado Mon, 09 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a reconhecer gatos em fotos. Até hoje, a maneira mais comum de fazer isso é como se fosse uma fábrica de montagem em linha reta: a imagem entra na esteira, passa por várias estações de trabalho (camadas), e no final sai a resposta "gato" ou "não é um gato". Se a fábrica errar, o gerente (o algoritmo) olha de trás para frente, na ordem inversa, para ver onde o erro aconteceu e corrigir os trabalhadores. Isso é o que chamamos de Redes Neurais Feedforward (como as usadas no Backpropagation).

Agora, imagine uma abordagem diferente, inspirada no cérebro humano: o Código Preditivo. Em vez de apenas passar informações para frente, o cérebro faz uma "conversa" constante. Ele tenta adivinhar o que vai acontecer, compara essa previsão com a realidade e ajusta a si mesmo.

Este artigo, escrito por Björn van Zwol, traz uma descoberta matemática fascinante sobre essa abordagem. Aqui está a explicação simplificada:

1. O Grande Segredo: "Eles são a mesma coisa no final"

O autor prova algo surpreendente: quando uma rede de Código Preditivo (PCN) está testada (ou seja, já aprendeu e está apenas funcionando), ela se comporta exatamente como uma rede neural tradicional em linha reta.

  • A Analogia: Pense em um detetive que, durante a investigação (treinamento), revisa todas as pistas, questiona testemunhas e muda de ideia várias vezes. Mas, quando ele chega ao tribunal para apresentar a conclusão (o teste), ele entrega um relatório linear e direto, exatamente como se tivesse seguido o caminho mais óbvio o tempo todo.
  • Por que isso importa? Isso significa que as redes de Código Preditivo têm a mesma "força" teórica das redes tradicionais. Elas podem aprender qualquer coisa que as redes tradicionais aprendem.

2. A Expansão: De "Linha Reta" para "Teia de Aranha"

A parte mais emocionante do artigo é a segunda descoberta. O autor mostra que as redes de Código Preditivo podem ser expandidas para algo chamado Gráficos de Código Preditivo (PCGs).

  • A Analogia:
    • Rede Tradicional (FNN): É como um trem que só pode ir para frente, de estação A para B, depois para C. Se houver um erro, o trem precisa voltar para a estação de origem para consertar o trilho (o que é difícil e lento).
    • Gráfico de Código Preditivo (PCG): É como uma cidade com ruas, atalhos, vias reversas e pontes. Você pode ir de A para B, mas também pode ir de B para A, ou de A para C sem passar por B.
  • O Pulo do Gato: O autor prova matematicamente que a "cidade" (o PCG) é um superconjunto da "linha de trem" (a rede tradicional). Ou seja, a linha de trem é apenas um caso especial, uma versão simplificada da cidade complexa.

3. Por que isso é revolucionário?

O artigo sugere que, ao usar essa estrutura de "cidade" (grafos arbitrários), podemos criar redes neurais com conexões que as redes tradicionais não conseguem treinar facilmente.

  • Conexões de "Pulo" (Skip Connections): Você já deve ter ouvido falar de redes que "pulam" camadas para aprender melhor (como as ResNets). O artigo mostra que essas conexões são apenas uma pequena parte do que o Código Preditivo permite.
  • Conexões para Trás e Laterais: O PCG permite conexões que voltam para trás ou vão para o lado. Isso é como permitir que o trem volte para a estação anterior para pegar uma pista esquecida, ou que duas estações conversem diretamente sem passar pelo gerente.

4. O Desafio Prático

O autor é honesto sobre um problema: essa "cidade" é mais complexa.

  • Velocidade: Enquanto a linha de trem (rede tradicional) é muito rápida para passar uma viagem (inferência), a cidade (PCG) exige que o computador "pense" um pouco mais, fazendo várias idas e vindas para encontrar o melhor caminho antes de dar a resposta. É como resolver um labirinto em vez de seguir uma linha reta.
  • Vale a pena? Sim, porque essa flexibilidade pode levar a modelos mais eficientes, biologicamente plausíveis (mais parecidos com o cérebro) e capazes de resolver problemas que as redes atuais não conseguem.

Resumo em uma frase

O artigo prova que as redes neurais tradicionais são apenas um "subconjunto" limitado de uma estrutura muito mais poderosa e flexível (os Gráficos de Código Preditivo), que permite conexões em todas as direções, abrindo portas para uma nova geração de inteligência artificial mais inteligente e parecida com o cérebro humano.