CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Este trabajo presenta CreativeBench, un nuevo marco de evaluación cuantitativa para la creatividad en la generación de código que distingue objetivamente entre creatividad y alucinación, revela comportamientos específicos de los modelos a escala y propone EvoRePE, una estrategia de inferencia que mejora consistentemente la creatividad de las máquinas mediante patrones de búsqueda evolutiva.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (IA) son como cocineros geniales que han leído casi todos los libros de cocina del mundo. Hasta ahora, el problema era que ya habían comido (o "entrenado") con todos los ingredientes disponibles en internet. No había nada nuevo que aprender.

Para seguir mejorando, los científicos necesitan que estos cocineros no solo repitan recetas, sino que creen platos totalmente nuevos que nadie haya imaginado antes.

Aquí es donde entra este paper, que presenta CreativeBench. Vamos a desglosarlo con analogías sencillas:

1. El Problema: ¿Creatividad o "Alucinación"?

Antes, medíamos a las IAs por si sus respuestas eran correctas (como si un cocinero hiciera un pastel que sabe bien). Pero para medir la creatividad, es más difícil.

  • Si un cocinero inventa un pastel de "sopa de chocolate", ¿es genial o está loco?
  • Las IAs a veces inventan cosas que parecen reales pero no funcionan (alucinaciones).
  • La solución: CreativeBench usa código de computadora. ¿Por qué? Porque el código es como un plato que puedes probar: o funciona (se ejecuta) o explota. Esto elimina la duda: si el código funciona y es nuevo, ¡es creatividad real!

2. Las Dos Tipos de Creatividad (El Menú del Benchmark)

Los autores dividen la creatividad en dos tipos, como si fueran dos desafíos culinarios distintos:

  • A) Creatividad Combinatoria (Mezclar ingredientes):

    • La analogía: Imagina que tienes un libro de recetas de pizzas y otro de postres. El desafío es crear una receta que fusione ambos: una pizza con topping de helado y salsa de caramelo, que sea deliciosa y funcional.
    • En el papel: La IA debe tomar conceptos de dos mundos diferentes (ej. gráficos de redes y teoría musical) y unirlos en un solo programa que funcione.
  • B) Creatividad Exploratoria (Caminar por un laberinto con reglas locas):

    • La analogía: Imagina que te piden cocinar un pastel, pero te prohíben usar horno, azúcar o huevos. Tienes que encontrar una forma totalmente nueva de hacerlo (quizás usando vapor o ingredientes raros).
    • En el papel: La IA debe resolver un problema, pero se le van añadiendo restricciones difíciles (ej. "no puedes usar bucles for", "no puedes usar esta función"). La IA debe "pensar fuera de la caja" para encontrar una solución que no sea la obvia.

3. ¿Qué descubrieron? (Las Sorpresas)

Al poner a prueba a las IAs más inteligentes del mundo, encontraron cosas curiosas:

  • Más grande no siempre es más creativo: Hacer la IA más grande (más "cerebro") la hace mejor en mezclar cosas (Combinatoria), pero peor en explorar caminos locos (Exploratoria). Las IAs gigantes tienden a ser muy correctas, pero muy aburridas y predecibles. Se vuelven "convergentes" (todos piensan igual).
  • El razonamiento ayuda a explorar: Cuando la IA tiene que seguir reglas estrictas (como el laberinto), si le decimos que "piense paso a paso" (modo de razonamiento), mejora mucho. Pero si solo tiene que mezclar cosas, pensar demasiado no le ayuda tanto.

4. La Magia: EvoRePE (El "Acelerador de Creatividad")

Los autores no solo midieron el problema, sino que crearon una solución llamada EvoRePE.

  • La analogía: Imagina que la IA es un coche. Normalmente, el coche sigue el camino más rápido (el más común). EvoRePE es como un GPS especial que le dice al coche: "Oye, no tomes la autopista principal, toma este camino de tierra que es más largo pero tiene paisajes increíbles".
  • Cómo funciona: Observan cómo la IA evoluciona cuando intenta ser creativa, extraen un "vector de creatividad" (una dirección oculta en su cerebro) y se lo inyectan mientras piensa.
  • El resultado: ¡Funciona! La IA se vuelve más creativa sin necesidad de volver a entrenarla desde cero. Es como darle un "empujoncito" mágico para que deje de ser aburrida.

En Resumen

Este paper es como un gym para la creatividad de las máquinas.

  1. Crearon un gimnasio (CreativeBench) con dos tipos de máquinas: una para mezclar ideas y otra para resolver laberintos.
  2. Descubrieron que las IAs gigantes son buenas mezclando, pero malas explorando.
  3. Inventaron un suplemento (EvoRePE) que hace que las IAs sean más creativas y menos predecibles, simplemente ajustando su "mentalidad" en el momento de pensar.

¡Es un paso gigante para que las máquinas no solo sean inteligentes, sino también imaginativas!