Compositional Neuro-Symbolic Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a resolver um quebra-cabeça visual muito difícil, como os do jogo ARC (Corpus de Abstração e Raciocínio). O desafio é que você só tem algumas poucas pistas (exemplos) e precisa descobrir a regra secreta para resolver um novo caso que nunca viu antes.

Os pesquisadores deste artigo (da CoreThink AI e da Stanford) descobriram que os "cérebros" de computador modernos (chamados de Grandes Modelos de Linguagem ou LLMs) são ótimos em chutar, mas ruins em seguir regras lógicas rigorosas. Eles tendem a alucinar ou falhar quando o padrão muda um pouco.

Para resolver isso, eles criaram um sistema híbrido (neuro-simbólico) que funciona como uma equipe de detetives com especialidades diferentes. Vamos usar uma analogia de uma cozinha de restaurante de alta tecnologia para explicar como funciona:

1. O Problema: O Chef que Alucina

Antes, tínhamos apenas um "Chef" (o modelo de IA pura) tentando adivinhar a receita inteira de uma vez só.

O que acontecia: O Chef olhava para os ingredientes e dizia: "Acho que é salada, mas talvez seja sopa, ou talvez eu deva colocar chocolate". Ele tentava adivinhar a regra inteira de uma vez.
O resultado: Ele acertava às vezes, mas falhava muito quando a receita exigia lógica complexa (como "se o objeto for vermelho, pule 2 casas").

2. A Solução: A Cozinha Especializada (O Sistema Neuro-Simbólico)

Os autores dividiram o trabalho em 4 etapas, como se fosse uma linha de montagem de uma cozinha perfeita:

Etapa 1: O Garçom Organizado (Abstração Simbólica)

Em vez de olhar para a "imagem" bagunçada (os pixels), o sistema primeiro pede a um "Garçom" (um algoritmo simples e matemático) para organizar a mesa.

A Analogia: O Garçom não vê "pixels coloridos". Ele vê "objetos". Ele diz: "Aqui temos um quadrado vermelho, ali um círculo azul, e o fundo é preto". Ele separa o que é importante do que é apenas o fundo.
Por que é bom: Isso limpa a bagunça. O cérebro do computador não precisa tentar entender pixels; ele entende "objetos".

Etapa 2: O Chefe de Cozinha Criativo (Geração de Hipóteses)

Agora, com a mesa organizada, o "Chefe de Cozinha" (um modelo de IA neural) entra em ação. Mas ele não pode inventar qualquer coisa.

A Analogia: O Chefe tem um livro de receitas limitado (chamado DSL - Linguagem de Domínio Específico). Ele só pode escolher entre 22 tipos de movimentos básicos, como "Preencher horizontalmente", "Conectar dois objetos" ou "Fazer um buraco".
O Truque: O Chefe usa sua criatividade para propor quais dessas 22 receitas podem resolver o problema, baseando-se nos exemplos que o Garçom organizou. Ele não chuta aleatoriamente; ele chuta dentro de um conjunto de regras lógicas.

Etapa 3: O Inspetor de Qualidade (Filtro de Consistência)

Aqui está a mágica. O Chefe pode ter sugerido 5 receitas diferentes. Mas o sistema tem um Inspetor de Qualidade (lógica simbólica).

A Analogia: O Inspetor pega todas as receitas sugeridas e diz: "Espere! Se essa receita funciona para o Exemplo 1, ela tem que funcionar para o Exemplo 2 e 3 também".
O Resultado: Se uma receita funciona no primeiro prato, mas estraga o segundo, o Inspetor a joga fora. Ele só deixa passar as regras que são consistentes em todos os exemplos. Isso elimina o "achismo".

Etapa 4: O Montador Final (Geração da Solução)

Com a regra certa e limpa (a receita aprovada pelo Inspetor), o sistema monta o prato final para o cliente (o teste).

A Analogia: Se o sistema ainda tiver dúvidas, ele usa um "segundo Chef" (outro modelo de IA) apenas para montar o prato final, mas seguindo estritamente a receita aprovada. Eles podem fazer várias tentativas e escolher a que todos concordam (votação).

O Que Isso Significa na Prática?

Antes: A IA tentava "adivinhar" a resposta inteira de uma vez, como um aluno tentando memorizar a prova sem entender a matéria.
Agora: A IA primeiro entende o que são os objetos (Garçom), depois procura uma regra lógica em um livro de regras (Chefe), verifica se a regra funciona em todos os casos (Inspetor) e só então aplica a solução.

Os Resultados

Quando testaram isso no ARC-AGI-2 (uma versão muito difícil do teste):

Um modelo de IA comum (apenas o "Chef" tentando adivinhar) acertou cerca de 16%.
O sistema híbrido (a equipe completa) acertou 24,4%.
Quando combinaram dois sistemas diferentes (como ter dois inspectores diferentes), o acerto subiu para 30,8%.

A Lição Principal

O artigo nos ensina que, para a inteligência artificial se tornar verdadeiramente inteligente (como um humano), não basta apenas ter um cérebro gigante que memoriza tudo. É preciso separar as tarefas:

Ver o mundo de forma clara (Percepção).
Pensar usando regras lógicas e limitadas (Raciocínio Simbólico).
Verificar se a lógica faz sentido em todos os casos (Consistência).

É como dizer: "Não adianta ter um gênio que alucina; é melhor ter um gênio que segue um manual de instruções rigoroso e é supervisionado por um auditor". Isso torna a IA mais confiável e capaz de resolver problemas novos sem precisar de milhões de exemplos de treino.

Each language version is independently generated for its own context, not a direct translation.

Título: Raciocínio Neuro-Simbólico Compositivo para o ARC-AGI-2

1. O Problema

O ARC-AGI-2 (Abstraction and Reasoning Corpus) é um benchmark projetado para medir a inteligência fluida, exigindo que sistemas inferam regras de transformação abstratas a partir de poucos exemplos e as apliquem a novos inputs. O desafio central reside na generalização composicional: a capacidade de reestruturar conhecimento aprendido em novos contextos.

O artigo identifica duas falhas fundamentais nas abordagens atuais:

Arquiteturas Puramente Neurais (LLMs): Tendem a entrelaçar percepção e indução de regras. Embora boas em reconhecimento de padrões, elas falham em generalizações composicionais robustas, produzindo extrapolações frágeis quando enfrentam composições novas.
Sistemas Puramente Simbólicos: São interpretáveis, mas sofrem com uma explosão combinatória ao buscar soluções em grades de alta resolução e transformações multi-etapa, tornando a busca exaustiva inviável.

O objetivo é desenvolver uma arquitetura que separe a abstração perceptiva da indução de regras, utilizando um conjunto restrito e reutilizável de transformações visuais atômicas.

2. Metodologia: Pipeline Neuro-Simbólico Compositivo

Os autores propõem uma arquitetura de quatro estágios que integra representações de objetos, priores neurais e filtragem simbólica. O sistema não gera grades de pixels diretamente, mas opera sobre um Linguagem Específica de Domínio (DSL) de padrões unitários.

Estágio 1: Abstração Simbólica Estruturada da Cena

O sistema converte a grade de entrada bruta em um grafo de cena simbólico.
Detecção de Objetos: Utiliza componentes conectados (8-vizinhos) para isolar objetos não-fundo.
Parâmetros: Para cada objeto, calcula-se caixas delimitadoras, centróides, histogramas de cor e detecção de cavidades (buracos internos).
Abstração: O resultado é uma representação estruturada $S(I)$ que remove a variância de tradução e foca na geometria e topologia dos objetos.

Estágio 2: Geração de Hipóteses Guiada por Redes Neurais

Em vez de enumerar todas as combinações possíveis de programas, o sistema usa um prior neural (implementado via LLMs com saída estruturada) para propor candidatos de transformação.
DSL (Linguagem Específica): O espaço de busca é limitado a 22 "Padrões Unitários" (Unit Patterns) atômicos (ex: Preenchimento Horizontal, Preenchimento Vertical, Pontes de Conexão, Gravidade, Simetria).
O modelo neural sugere quais padrões e parâmetros (ex: cor, direção, objeto fonte) explicam a diferença entre a entrada e a saída simbólica.

Estágio 3: Filtragem de Consistência Cruzada (Cross-Example Consistency)

Este é o componente crítico para a generalização. O sistema executa simbolicamente os programas candidatos em todos os pares de treinamento.
Filtragem: Apenas as hipóteses que são consistentes em todos os exemplos de treinamento são mantidas.
Interseção: O conjunto final de hipóteses é a interseção das soluções válidas para cada exemplo. Isso elimina explicações que funcionam para um caso isolado, mas falham na generalização.
Seleção: Escolhe-se o programa mais simples (menor profundidade) entre os consistentes.

Estágio 4: Geração de Solução Guiada

Com as hipóteses de consenso (os "dicas" ou hints estruturados), o sistema gera a solução para o teste.
Pode utilizar um executor baseado em regras para padrões simples ou um LLM condicionado às dicas estruturadas para casos complexos.
Auto-consistência: Gera múltiplas amostras e usa votação majoritária a nível de célula para estabilizar a saída.

3. Contribuições Chave

Separação Estrutural: A proposta de desacoplar explicitamente a percepção (extração de objetos), a geração de hipóteses (guiada por LLMs sobre um DSL) e a verificação de consistência (simbólica).
DSL de Padrões Unitários: A criação de uma biblioteca de 22 padrões visuais abstratos que cobrem a maioria das operações necessárias no ARC, restringindo o espaço de busca sem perder expressividade.
Filtragem de Consistência: O uso de interseção de hipóteses entre múltiplos exemplos de treinamento para forçar a invariância da regra, reduzindo a dependência de busca exaustiva.
Meta-Classifier: Uma abordagem de ensemble que combina o Raciocinador Compositivo com o "ARC Lang Solver" (um solver baseado puramente em LLM), selecionando a melhor solução entre candidatos gerados por pipelines diferentes.

4. Resultados

Os experimentos foram conduzidos no conjunto de avaliação pública do ARC-AGI-2 usando a métrica pass@2 (o sistema vence se pelo menos uma das duas saídas estiver correta).

Desempenho Individual:
- Raciocinador Compositivo (Neuro-Simbólico): Alcançou 24,4%.
- Meta-Classifier (Ensemble): Ao combinar o Raciocinador com o ARC Lang Solver, atingiu 30,8%.
Comparação com LLMs:
- LLMs de ponta (GPT-5-Pro, Grok-4, Claude Opus) variaram entre 4,9% e 18,3%.
- O sistema proposto superou significativamente os modelos puramente neurais, demonstrando que a restrição simbólica e a abstração de objetos são mais eficazes do que apenas aumentar o tamanho do modelo ou o contexto.
Estudos de Ablação:
- A remoção das "dicas simbólicas" (Stage 1-3) causou uma queda de 6,9 pontos percentuais (de 24,4% para 17,5%), provando que a abstração estruturada é o principal motor de ganho.
- A auto-consistência (votação) contribuiu com mais 3,9 pontos, atuando como um mecanismo de robustez secundário.

5. Significado e Conclusão

O trabalho demonstra que a inteligência artificial para tarefas de raciocínio abstrato não depende apenas de escala (mais dados, modelos maiores), mas de priors arquiteturais que codifiquem a estrutura composicional.

Generalização Sistêmica: Ao separar a percepção da indução de regras e forçar a consistência entre exemplos, o sistema aprende a generalizar de forma mais humana, evitando a memorização e a busca cega.
Eficiência: O método reduz a necessidade de busca exaustiva e escalas de amostragem no tempo de teste, oferecendo uma via mais eficiente para a inteligência fluida.
Limitações: O desempenho ainda está abaixo dos humanos (100%) e depende de uma DSL que pode não cobrir todas as transformações complexas de raciocínio relacional profundo. O custo computacional da auto-consistência ainda é um fator limitante.

Em suma, o artigo valida a tese de que arquiteturas neuro-simbólicas, que combinam a flexibilidade dos LLMs com a rigorosidade da lógica simbólica e a abstração de objetos, são o caminho mais promissor para superar as limitações atuais dos modelos de deep learning em tarefas de raciocínio lógico-visual.

Código: O código-fonte foi aberto em github.com/CoreThink-AI/arc-agi-2-reasoner.