CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

O artigo apresenta o CreativeBench, um benchmark quantitativo para avaliar a criatividade de máquinas em geração de código através de métricas de qualidade e novidade, revelando que o escalonamento melhora a criatividade combinatória mas reduz a divergência, e propondo a estratégia EvoRePE para aprimorar consistentemente a criatividade durante a inferência.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

Publicado 2026-03-13
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de inteligência artificial (como o ChatGPT) são como cozinheiros extremamente talentosos que aprenderam a cozinhar lendo milhões de receitas na internet. Eles são ótimos em seguir instruções e recriar pratos clássicos.

Mas, e se quiséssemos testar se eles conseguem inventar um prato novo, ou se conseguem cozinhar algo delicioso mesmo quando proibimos o uso do forno ou da faca?

É exatamente isso que o artigo "CreativeBench" propõe. Os autores criaram um "campo de provas" para medir a criatividade real das máquinas, não apenas se elas acertam a resposta, mas se elas conseguem pensar de formas diferentes.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Esgotamento" das Receitas

Até hoje, os computadores ficaram mais inteligentes apenas lendo mais e mais dados da internet. Mas a internet está cheia de receitas repetidas. Os autores dizem: "Chega de apenas ler mais! Precisamos de máquinas que criem coisas novas."

O problema é: como você mede a criatividade de um robô?

  • Se ele escreve um código que funciona, é criativo? Não necessariamente, pode ser apenas uma cópia.
  • Se ele escreve algo totalmente novo, mas que não funciona (alucinação), é criativo? Não, é apenas um erro.

2. A Solução: O "CreativeBench" (O Campo de Provas)

Os autores criaram um teste chamado CreativeBench. Eles dividiram a criatividade em dois tipos, usando uma teoria de uma psicóloga chamada Margaret Boden:

  • A) Criatividade Combinatória (A Mistura):

    • Analogia: É como pegar ingredientes de um prato italiano (massa) e de um prato japonês (sushi) e criar um novo prato (Sushi-Pasta).
    • No teste: O computador pega dois problemas de áreas diferentes (ex: matemática e música) e precisa fundi-los em uma solução única.
    • O Truque: Eles não pedem para o computador inventar do nada. Eles pegam uma solução que já funciona, escondem a receita e pedem para o computador adivinhar qual era o problema. Isso garante que a tarefa é possível, mas difícil.
  • B) Criatividade Exploratória (O Labirinto):

    • Analogia: É como jogar um jogo de "Parece que você não pode usar o forno". Você precisa assar um bolo, mas o forno está quebrado. Você precisa encontrar uma maneira criativa de cozinhar (talvez usar o micro-ondas de um jeito estranho ou o sol).
    • No teste: O computador recebe um problema e, em seguida, recebe uma regra estrita: "Você não pode usar loops (repetições) no código" ou "Você não pode usar a fórmula padrão". O computador precisa encontrar um caminho alternativo que ainda funcione.

3. A Medida: Qualidade x Novidade

Para não confundir "criatividade" com "erro", eles criaram uma fórmula simples:

Criatividade = Qualidade (Funciona?) x Novidade (É diferente?)

  • Se o código funciona mas é igual a tudo que já existe: Baixa criatividade.
  • Se o código é super diferente mas dá erro: Baixa criatividade.
  • Se o código funciona E é diferente: Alta criatividade!

4. O Que Eles Descobriram? (As Surpresas)

Ao testar os maiores modelos de IA do mundo, eles viram coisas interessantes:

  1. Tamanho não é tudo (para explorar): Fazer o modelo ficar maior (mais "cérebro") ajuda muito a misturar conceitos (Combinatória), mas não ajuda tanto a encontrar caminhos novos em labirintos difíceis (Exploratória).
  2. O Efeito "Padrão": Modelos gigantes tendem a ficar mais "certos", mas também mais "entediantes". Eles escolhem o caminho mais seguro e comum. Modelos menores às vezes erram mais, mas às vezes descobrem soluções mais estranhas e criativas.
  3. Pensar ajuda a explorar: Quando o modelo é forçado a "pensar passo a passo" (raciocinar), ele fica muito melhor em resolver os labirintos com regras estritas, mas não ajuda tanto na mistura de conceitos.

5. A Inovação: O "EvoRePE" (O GPS da Criatividade)

A parte mais legal é que eles não apenas mediram, mas melhoraram a criatividade.

Eles criaram uma técnica chamada EvoRePE.

  • Analogia: Imagine que a criatividade é como uma direção no GPS. Normalmente, o carro (a IA) segue a rota padrão. O EvoRePE é como um pequeno ajuste no GPS que diz: "Ei, tente desviar um pouco para a esquerda, lá tem uma paisagem bonita que você nunca viu".
  • Eles pegaram padrões de como a IA evolui e criaram um "vetor de criatividade" (uma espécie de bússola interna). Ao injetar essa bússola no modelo durante o uso, o computador começou a gerar soluções mais criativas sem precisar ser re-treinado do zero.

Resumo Final

O CreativeBench é como um campeonato de "Hackeamento Criativo" para IAs. Ele nos ensina que:

  1. Medir criatividade é difícil, mas possível se usarmos testes práticos (código que roda).
  2. Modelos gigantes são ótimos em juntar coisas, mas precisam de ajuda para inventar coisas novas.
  3. Podemos "ajustar" a IA para ser mais criativa usando uma bússola interna (EvoRePE), sem precisar gastar milhões de dólares para treiná-la novamente.

É um passo importante para que as máquinas deixem de ser apenas "copiadores de receitas" e se tornem verdadeiros "chefes inventores".