ARC-AGI-2 Technical Report

Este relatório técnico apresenta um sistema baseado em transformadores que avança o desempenho no ARC-AGI ao combinar inferência neural com priores sensíveis à estrutura e adaptação online, utilizando codificação compacta de tarefas, aumento de dados baseado em simetrias, treinamento no momento do teste (TTT) com LoRA e um pipeline de pontuação para alcançar generalização próxima ao nível humano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy

Publicado Tue, 10 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um quebra-cabeça muito estranho. Não é um quebra-cabeça de imagem, mas sim de lógica visual. Você vê um desenho pequeno (a "entrada") e outro desenho ao lado (a "saída"). O desafio é descobrir a regra secreta que transforma o primeiro no segundo e aplicá-la a um novo desenho que você nunca viu antes.

Isso é o ARC (Corpus de Raciocínio Abstrato). É como um teste de QI para computadores, onde eles não podem apenas "decorar" respostas, mas precisam pensar e entender padrões, assim como um humano faria.

Este relatório técnico descreve como uma equipe criou um "super-estudante" (uma inteligência artificial) para vencer esses desafios. Eles não usaram apenas força bruta; usaram criatividade e estratégia. Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. A Base: O Estudante com um Caderno Compacto

O modelo de IA que eles criaram é baseado em uma arquitetura chamada LongT5.

  • A Analogia: Imagine que a IA é um estudante muito inteligente, mas que tem um caderno de anotações pequeno. Se o problema for muito grande (muitos pixels), o caderno não cabe tudo.
  • A Solução: Eles criaram um "código secreto" (tokenização) super compacto. Em vez de escrever "quadrado azul, quadrado vermelho", eles usam símbolos curtos. Isso permite que o estudante leia problemas longos sem se perder, como se ele tivesse um mapa de bolso em vez de um livro inteiro.

2. O Treinamento: A "Escola de Diversidade"

Antes de enfrentar os exames reais, o modelo passou por um treinamento intensivo. Mas não foi apenas repetição.

  • A Analogia: Imagine que você está aprendendo a cozinhar. Se você só praticar com batatas, você não aprende a cozinhar.
  • O Truque (Aumento de Dados): Eles criaram milhões de problemas sintéticos (falsos, mas válidos) para o modelo treinar.
    • Simetria: Eles giraram e espelharam os problemas. Se o aluno aprende a regra de "girar 90 graus", ele não deve se confundir se o problema aparecer de lado.
    • Caminhos Diferentes (Traversals): Imagine ler um livro. Você pode ler linha por linha, ou em zigue-zague (como uma cobra). Eles ensinaram o modelo a ler os desenhos de várias formas. Isso força o cérebro da IA a entender a regra (o "o que" está acontecendo) e não apenas a posição (o "onde" está).
    • Autômatos Celulares: Eles usaram regras simples de jogos (como o "Jogo da Vida") para distorcer os problemas, ensinando o modelo a ignorar ruídos e focar na lógica principal.

3. O "Grokking": O Momento "Eureca!"

Durante o treinamento, algo mágico aconteceu.

  • A Analogia: Imagine um aluno que está estudando para uma prova. Ele decora todas as respostas de cor (memorização), mas não entende a matéria. De repente, depois de muito tempo, ele "clica". Ele para de decorar e começa a entender a lógica.
  • O Resultado: Isso é chamado de Grokking. O modelo passou de apenas memorizar padrões para realmente generalizar regras. Isso aumentou drasticamente a pontuação deles.

4. O Exame: Aprendendo na Hora (Test-Time Training)

Aqui está a parte mais genial. Quando o modelo enfrenta um problema novo no exame, ele não apenas tenta adivinhar. Ele estuda o problema antes de responder.

  • A Analogia: Imagine que você vai resolver um problema de matemática difícil. Em vez de chutar, você pega um papel de rascunho, faz algumas tentativas rápidas e ajusta sua mente para aquele problema específico.
  • A Técnica (TTT): O modelo usa uma técnica chamada LoRA (adaptação de baixo rank). Ele faz um "micro-treinamento" de alguns minutos apenas para aquele problema específico. Ele ajusta levemente seus pesos internos para entender a lógica daquele quebra-cabeça, sem esquecer o que aprendeu antes. É como um detetive que, ao chegar na cena do crime, ajusta sua lupa para ver os detalhes específicos daquele caso.

5. O Jogo de Espelhos: Ver de Todos os Ângulos

Depois de gerar várias respostas possíveis, como saber qual é a certa?

  • A Analogia: Imagine que você está tentando ver se um objeto é real. Você o gira, olha de cima, de baixo, com uma luz diferente. Se o objeto for real, ele se mantém consistente em todos os ângulos. Se for uma ilusão de ótica, ele se desfaz.
  • A Técnica (Scoring de Simetria): O modelo gera várias respostas. Depois, ele pega cada resposta e a "gira" e "espelha" mentalmente. Ele verifica: "Se eu girar a resposta, ela ainda faz sentido com a regra?". A resposta que se mantém consistente em todos os "espelhos" (simetrias) é a escolhida. Isso elimina erros bobos.

6. O Filtro: O Guardião Lógico

Antes de entregar a resposta final, um "guardião" verifica se a resposta faz sentido lógico.

  • A Analogia: Se a pergunta é "quantos gatos existem?" e a resposta é "um cachorro", o guardião joga fora.
  • A Regra: Eles usam regras simples (como "a cor da saída deve estar presente na entrada" ou "o tamanho deve ser o mesmo"). Isso corta milhares de respostas erradas e deixa apenas as candidatas promissoras.

Resumo da Vitória

A equipe não venceu apenas porque a IA é "grande". Eles venceram porque:

  1. Ensinaram a IA a ver o problema de vários ângulos (rotação, leitura em zigue-zague).
  2. Deixaram a IA estudar o problema específico antes de responder (Treinamento na Hora).
  3. Usaram espelhos para validar a resposta (Scoring de Simetria).

O resultado foi um sistema que se aproxima muito do raciocínio humano, capaz de pegar uma regra abstrata de apenas dois exemplos e aplicá-la a situações novas, superando modelos anteriores que apenas tentavam "chutar" baseados em estatística.

Em suma: Eles transformaram uma IA que apenas "decora" em uma IA que "entende, adapta e verifica".