HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

El artículo presenta HypoSpace, una suite de diagnóstico que evalúa la creatividad de los modelos de lenguaje al generar conjuntos de hipótesis en problemas subdeterminados, midiendo la validez, la unicidad y la recuperación para revelar el colapso de modos que las métricas de corrección única pasan por alto.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu

Publicado Tue, 10 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un detective en un caso muy extraño. Tienes una huella dactilar en la ventana (los datos) y necesitas encontrar al culpable. Pero aquí está el problema: no hay un solo culpable. Hay 100 personas diferentes que, por pura coincidencia, podrían haber dejado esa misma huella. Todas son sospechosas válidas.

El problema de la ciencia moderna es que a menudo nos encontramos en esta situación: los datos no nos dicen una sola verdad, sino muchas posibilidades.

El artículo que presentas, "HypoSpace", es como un nuevo tipo de examen para las Inteligencias Artificiales (IA) para ver si saben comportarse como buenos detectives en estos casos confusos.

Aquí te explico la idea principal con una analogía sencilla:

1. El Problema: El "Círculo de los Sospechosos"

Antes de este examen, las IAs se evaluaban preguntándoles: "¿Cuál es la respuesta correcta?". Si la IA adivinaba una de las 100 personas posibles, ¡ganaba!

Pero en la ciencia real, si solo te quedas con una respuesta, te estás perdiendo el 99% de la verdad. El problema es que las IAs actuales, aunque son muy inteligentes, tienden a ser perezosas y predecibles. Cuando se les pide pensar en varias opciones, suelen repetir las mismas 3 o 4 ideas una y otra vez, ignorando las otras 96 posibilidades válidas.

2. La Prueba: HypoSpace (El "Zoológico de Hipótesis")

Los autores crearon un laboratorio de pruebas llamado HypoSpace. Imagina que es un parque de atracciones con tres juegos diferentes donde la IA debe encontrar todas las soluciones posibles, no solo una:

  • Juego 1: El Laberinto de Causas. Dado un efecto (ej. "el árbol cayó"), la IA debe dibujar todos los caminos posibles que podrían haber causado esa caída.
  • Juego 2: El Bloque de Lego 3D. Ves una sombra en la pared (una proyección 2D) y debes reconstruir todas las formas posibles de bloques que podrían haber creado esa sombra, respetando la gravedad.
  • Juego 3: La Receta Genética. Tienes el resultado de una mezcla (ej. "el niño tiene ojos azules") y debes escribir todas las recetas genéticas posibles que podrían haberlo producido.

3. Las Tres Reglas del Juego (Las Métricas)

Para calificar a la IA, no solo miran si acertó, sino cómo exploró el parque. Usan tres reglas:

  1. Validez (¿Es creíble?): ¿La solución que dio la IA tiene sentido? ¿Es una de las 100 personas que dejaron la huella? (Si la IA dice "fue un extraterrestre" cuando la huella es humana, falla aquí).
  2. Originalidad (¿Es repetitiva?): Si la IA te da 10 respuestas, ¿son 10 personas diferentes o te dio 10 veces el nombre de "Juan"? Si solo repite a Juan, su puntuación de originalidad es baja.
  3. Recuperación (¿Cubrió todo?): De las 100 personas posibles, ¿cuántas logró encontrar la IA? Si encontró solo a 5, su puntuación es baja, aunque esas 5 fueran correctas.

4. Lo que Descubrieron (El Hallazgo Sorprendente)

Los autores probaron a las IAs más avanzadas del mundo (como GPT-5, Claude, Gemini, etc.) y encontraron un patrón preocupante:

  • Son excelentes encontrando una respuesta: Casi siempre aciertan con una solución válida (Validez alta).
  • Son terribles explorando todas las respuestas: A medida que el número de posibilidades crece, las IAs se vuelven "cegadas". Se quedan atrapadas en un pequeño grupo de soluciones favoritas y dejan de buscar el resto.

Es como si un chef, al pedirle que cocine 100 platos diferentes con los mismos ingredientes, solo te sirviera 3 platos una y otra vez, aunque técnicamente todos fueran comestibles.

5. La Solución Propuesta: "El Mapa de Niveles"

Los investigadores probaron una solución sencilla llamada Decodificación Estratificada.

Imagina que en lugar de dejar que la IA busque libremente (y se quede en la zona segura), tú le dices: "Primero dame todas las soluciones simples. Ahora, ignora las simples y dame solo las complejas. Ahora dame las muy complejas".

Al obligar a la IA a buscar en "niveles" de dificultad, lograron que encontrara más soluciones raras y complejas que normalmente ignoraba. No es una solución mágica, pero ayuda a que la IA deje de ser tan predecible.

En Resumen

HypoSpace nos dice que las IAs actuales son muy buenas para dar una respuesta correcta, pero muy malas para entender que pueden haber muchas respuestas correctas al mismo tiempo.

Para que las IAs sean verdaderos ayudantes científicos, no solo necesitamos que acierten, sino que tengan la curiosidad de explorar todo el mapa de posibilidades, no solo el camino más fácil. Este nuevo examen nos ayuda a medir esa curiosidad y a mejorar las IAs para que no se queden estancadas en las mismas ideas una y otra vez.