CREATE: Testing LLMs for Associative Creativity

El artículo presenta CREATE, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento asociativo creativo de los modelos de lenguaje mediante la generación de conexiones diversas y específicas entre conceptos, demostrando que incluso los modelos más avanzados tienen dificultades para saturar esta tarea compleja.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que la creatividad no es como un rayo mágico que cae del cielo, sino más bien como un juego de conexiones. Es la habilidad de tomar dos cosas que parecen no tener nada que ver (como un actor de cine y un científico) y encontrar un camino secreto que las une.

Este paper, titulado CREATE, es como un "examen de gimnasia mental" diseñado para ver qué tan buenos son los Inteligencias Artificiales (IA) en este juego de conexiones.

Aquí te lo explico con analogías sencillas:

1. El Problema: ¿Son las IAs realmente creativas?

Hasta ahora, hemos probado a las IAs con tareas muy abstractas o con preguntas de trivia simple. Pero la verdadera creatividad (como inventar una hipótesis científica o escribir una historia original) requiere asociar ideas de formas nuevas y sorprendentes.

El problema es que es difícil medir la creatividad. ¿Cómo sabes si una respuesta es "creativa" o solo "rara"?

2. La Solución: El juego "CREATE"

Los autores crearon un banco de pruebas llamado CREATE. Imagina que le das a la IA dos puntos en un mapa:

  • Punto A: Dakota Johnson (actriz).
  • Punto B: Alguien que actuó en películas de ciencia ficción.

La IA no puede decir simplemente "ambos son famosos". Tiene que encontrar caminos (conexiones) entre ellos.

  • Camino aburrido: "Ambos son humanos". (Demasiado genérico).
  • Camino creativo: "Dakota Johnson es la hijastra de Antonio Banderas, y Antonio Banderas actuó en Shrek (película de fantasía)".

El objetivo es que la IA genere muchos caminos, pero que sean:

  1. Fuertes: Que la conexión tenga sentido y sea específica (no algo genérico).
  2. Diversos: Que no sean todos iguales (no solo caminos sobre películas, sino también sobre familia, geografía, etc.).

3. ¿Cómo se califica? (El sistema de puntuación)

Imagina que la IA es un explorador en una selva (el conocimiento humano).

  • Calidad (Fuerza): Si el explorador encuentra un camino corto y directo a través de un túnel secreto, gana muchos puntos. Si camina por un sendero muy común (como "vivir en EE.UU."), gana pocos.
  • Diversidad: Si el explorador encuentra 10 caminos, pero todos son por el mismo valle, no es muy creativo. Si encuentra 10 caminos que van por montañas, ríos y cuevas diferentes, ¡eso es genial!

La puntuación final combina cuántos caminos buenos encontró y qué tan diferentes son entre sí.

4. Los Resultados: ¿Quién ganó?

El equipo probó a las IAs más potentes del mundo (como GPT-5, Gemini, Claude, etc.). Aquí están las conclusiones principales:

  • Las IAs más avanzadas son buenas, pero no perfectas: Las IAs "de punta" (las más inteligentes) consiguen encontrar caminos creativos y variados mejor que las versiones más pequeñas.
  • Más tiempo de pensamiento no siempre ayuda: Una de las sorpresas es que pedirle a la IA que "piense más" (usar más tokens o tiempo de razonamiento) no siempre garantiza mejores resultados. A veces, pensar más solo hace que la IA se repita o se pierda en bucles, como un perro persiguiendo su propia cola.
  • El equilibrio entre verdad y fantasía: A veces, las IAs son muy creativas pero inventan cosas falsas (alucinaciones). Las IAs más cuidadosas son menos "locas" pero también menos creativas. Encontrar el punto medio es difícil.
  • Los trucos de "prompting" (instrucciones) tienen límites: Pedirle a la IA "¡Sé creativa!" ayuda un poco, pero no es una varita mágica. Las técnicas más efectivas fueron simplemente pedirle que genere muchas opciones y luego elegir las mejores, o pedirle que genere algo diferente si ya dio una respuesta.

5. ¿Por qué importa esto?

Este trabajo es importante porque nos dice que, aunque las IAs son muy buenas recordando datos, aún les cuesta "saltar" entre ideas de forma natural, como lo hace un humano cuando tiene una idea brillante.

Es como si la IA tuviera una biblioteca gigante de libros, pero le costara abrir dos libros al azar y decir: "¡Mira! Estos dos personajes podrían ser amigos".

En resumen:
El paper CREATE es un nuevo gimnasio para entrenar a las IAs. Nos dice que ya son atletas decentes, pero aún no son campeones olímpicos de la creatividad. Necesitamos mejores métodos para que no solo "reciten" datos, sino que realmente "conecten" ideas de formas novedosas y útiles para la ciencia y el arte.