COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

O artigo apresenta o COGITAO, um framework e benchmark de código aberto que gera tarefas visuais baseadas em regras para estudar a composição e generalização, revelando que os modelos de visão atuais falham consistentemente ao lidar com novas combinações de elementos familiares.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando uma criança a cozinhar. Você não quer apenas que ela memorize a receita do bolo de chocolate. Você quer que ela entenda os conceitos básicos: o que é "bater ovos", o que é "assar", o que é "misturar". Se ela entende esses conceitos, ela consegue inventar um bolo de morango ou um pão de queijo, mesmo que nunca tenha visto essas receitas antes.

O problema é que, hoje em dia, as Inteligências Artificiais (IAs) mais avançadas são como crianças que decoraram milhares de receitas, mas não entendem a lógica da cozinha. Se você pedir algo novo, elas travam.

É aqui que entra o COGITAO (o nome é um pouco complicado, mas pense nele como um "Laboratório de Lógica Visual").

O Que é o COGITAO?

Pense no COGITAO como um simulador de Lego digital.

  1. O Cenário: Imagine uma grade (como um tabuleiro de xadrez) onde existem peças coloridas (os "objetos").
  2. As Regras: O sistema tem um conjunto de 28 "feitiços" ou transformações simples que você pode fazer nessas peças:
    • Mover para a direita.
    • Girar 90 graus.
    • Espelhar (como num espelho).
    • Cortar uma parte.
    • Mudar a cor.
  3. O Desafio: O COGITAO cria milhões de tarefas diferentes combinando esses feitiços.
    • Exemplo: "Pegue o quadrado vermelho, gire-o e depois mova-o para cima."
    • O Teste: A IA aprende a girar e a mover separadamente. Depois, o teste pede: "Gire e mova ao mesmo tempo". Se a IA realmente entendeu a lógica, ela consegue. Se ela só decorou, ela falha.

Por que isso é importante?

O papel dos autores (Yassine e sua equipe) diz: "Nós criamos esse laboratório para ver se as IAs atuais conseguem pensar de verdade ou se apenas estão 'chutando' padrões".

Eles pegaram as IAs mais modernas do mundo (como Transformers, que são o cérebro por trás do ChatGPT e geradores de imagens) e as colocaram para jogar nesse tabuleiro de Lego.

O Resultado foi decepcionante (mas revelador):

  • No treino: As IAs foram ótimas. Elas aprenderam as regras e acertaram quase tudo.
  • No teste (o novo): Assim que os pesquisadores mudaram a combinação das regras (algo que a IA nunca viu antes, mas usava peças que ela já conhecia), as IAs falharam miseravelmente.

A Analogia da "Criança que Decorou"

Imagine que você ensina a uma IA:

  • "Se eu disser 'pular', o boneco pula."
  • "Se eu disser 'girar', o boneco gira."

Depois, você diz: "Agora, faça o boneco pular e girar".
Uma IA inteligente faria as duas coisas.
As IAs testadas no COGITAO, no entanto, tendiam a fazer apenas uma das coisas (geralmente a que elas viram mais vezes no treino) ou a fazer uma bagunça. Elas não conseguem compor as ideias. Elas não entendem que "pular e girar" é a soma de duas ações simples.

O Que os Autores Descobriram?

  1. Tamanho não é tudo: Eles aumentaram o tamanho das IAs (mais memória, mais poder de processamento) e, mesmo assim, elas não aprenderam a compor as ideias. Não adianta apenas jogar mais dados nelas.
  2. Elas são "preguiçosas": Em vez de pensar na lógica, elas tentam adivinhar o que você quer baseado em padrões superficiais que viram antes. É como se, ao ver "pular e girar", elas dissessem: "Ah, eu vi 'pular' antes, então vou pular só isso".
  3. O Futuro: O COGITAO serve como um "raio-X" para a inteligência artificial. Ele mostra que, para chegarmos a uma IA que pense como um humano (que consegue criar coisas novas a partir de conceitos antigos), precisamos mudar a arquitetura dessas máquinas. Elas precisam aprender a entender a estrutura das coisas, não apenas a decorar o resultado.

Resumo em uma frase

O COGITAO é um jogo de tabuleiro criado para provar que, embora as IAs de hoje sejam ótimas em decorar receitas, elas ainda não sabem cozinhar sozinhas quando a receita muda um pouquinho.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →