HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un detective en un caso muy extraño. Tienes una huella dactilar en la ventana (los datos) y necesitas encontrar al culpable. Pero aquí está el problema: no hay un solo culpable. Hay 100 personas diferentes que, por pura coincidencia, podrían haber dejado esa misma huella. Todas son sospechosas válidas.

El problema de la ciencia moderna es que a menudo nos encontramos en esta situación: los datos no nos dicen una sola verdad, sino muchas posibilidades.

El artículo que presentas, "HypoSpace", es como un nuevo tipo de examen para las Inteligencias Artificiales (IA) para ver si saben comportarse como buenos detectives en estos casos confusos.

Aquí te explico la idea principal con una analogía sencilla:

1. El Problema: El "Círculo de los Sospechosos"

Antes de este examen, las IAs se evaluaban preguntándoles: "¿Cuál es la respuesta correcta?". Si la IA adivinaba una de las 100 personas posibles, ¡ganaba!

Pero en la ciencia real, si solo te quedas con una respuesta, te estás perdiendo el 99% de la verdad. El problema es que las IAs actuales, aunque son muy inteligentes, tienden a ser perezosas y predecibles. Cuando se les pide pensar en varias opciones, suelen repetir las mismas 3 o 4 ideas una y otra vez, ignorando las otras 96 posibilidades válidas.

2. La Prueba: HypoSpace (El "Zoológico de Hipótesis")

Los autores crearon un laboratorio de pruebas llamado HypoSpace. Imagina que es un parque de atracciones con tres juegos diferentes donde la IA debe encontrar todas las soluciones posibles, no solo una:

Juego 1: El Laberinto de Causas. Dado un efecto (ej. "el árbol cayó"), la IA debe dibujar todos los caminos posibles que podrían haber causado esa caída.
Juego 2: El Bloque de Lego 3D. Ves una sombra en la pared (una proyección 2D) y debes reconstruir todas las formas posibles de bloques que podrían haber creado esa sombra, respetando la gravedad.
Juego 3: La Receta Genética. Tienes el resultado de una mezcla (ej. "el niño tiene ojos azules") y debes escribir todas las recetas genéticas posibles que podrían haberlo producido.

3. Las Tres Reglas del Juego (Las Métricas)

Para calificar a la IA, no solo miran si acertó, sino cómo exploró el parque. Usan tres reglas:

Validez (¿Es creíble?): ¿La solución que dio la IA tiene sentido? ¿Es una de las 100 personas que dejaron la huella? (Si la IA dice "fue un extraterrestre" cuando la huella es humana, falla aquí).
Originalidad (¿Es repetitiva?): Si la IA te da 10 respuestas, ¿son 10 personas diferentes o te dio 10 veces el nombre de "Juan"? Si solo repite a Juan, su puntuación de originalidad es baja.
Recuperación (¿Cubrió todo?): De las 100 personas posibles, ¿cuántas logró encontrar la IA? Si encontró solo a 5, su puntuación es baja, aunque esas 5 fueran correctas.

4. Lo que Descubrieron (El Hallazgo Sorprendente)

Los autores probaron a las IAs más avanzadas del mundo (como GPT-5, Claude, Gemini, etc.) y encontraron un patrón preocupante:

Son excelentes encontrando una respuesta: Casi siempre aciertan con una solución válida (Validez alta).
Son terribles explorando todas las respuestas: A medida que el número de posibilidades crece, las IAs se vuelven "cegadas". Se quedan atrapadas en un pequeño grupo de soluciones favoritas y dejan de buscar el resto.

Es como si un chef, al pedirle que cocine 100 platos diferentes con los mismos ingredientes, solo te sirviera 3 platos una y otra vez, aunque técnicamente todos fueran comestibles.

5. La Solución Propuesta: "El Mapa de Niveles"

Los investigadores probaron una solución sencilla llamada Decodificación Estratificada.

Imagina que en lugar de dejar que la IA busque libremente (y se quede en la zona segura), tú le dices: "Primero dame todas las soluciones simples. Ahora, ignora las simples y dame solo las complejas. Ahora dame las muy complejas".

Al obligar a la IA a buscar en "niveles" de dificultad, lograron que encontrara más soluciones raras y complejas que normalmente ignoraba. No es una solución mágica, pero ayuda a que la IA deje de ser tan predecible.

En Resumen

HypoSpace nos dice que las IAs actuales son muy buenas para dar una respuesta correcta, pero muy malas para entender que pueden haber muchas respuestas correctas al mismo tiempo.

Para que las IAs sean verdaderos ayudantes científicos, no solo necesitamos que acierten, sino que tengan la curiosidad de explorar todo el mapa de posibilidades, no solo el camino más fácil. Este nuevo examen nos ayuda a medir esa curiosidad y a mejorar las IAs para que no se queden estancadas en las mismas ideas una y otra vez.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: HypoSpace

1. El Problema: Inferencia Subdeterminada

Muchos problemas científicos son subdeterminados: un mismo conjunto de observaciones puede ser consistente con múltiples hipótesis distintas y mecánicamente diferentes. Un ejemplo clásico es la imagenología de fuentes EEG, donde infinitas distribuciones de fuentes neurales pueden producir los mismos potenciales en el cuero cabelludo.

En estos escenarios, un sistema de razonamiento científico capaz no debe limitarse a encontrar una explicación válida, sino que debe explorar sistemáticamente el espacio de hipótesis admisibles. Sin embargo, los benchmarks actuales de Grandes Modelos de Lenguaje (LLMs) suelen recompensar la corrección de una sola respuesta, dejando sin evaluar la capacidad de los modelos para enumerar múltiples hipótesis válidas y diversas.

2. Metodología: El Marco HypoSpace

Los autores introducen HypoSpace, un conjunto de diagnóstico diseñado para evaluar la capacidad de los LLMs para generar conjuntos de hipótesis bajo condiciones de subdeterminación.

Enfoque: Trata a los LLMs como muestreadores sobre espacios de hipótesis finitos.
Dominios de Prueba: Se implementan tres tareas estructuradas que permiten la enumeración exacta de la verdad fundamental (ground truth) y la validación determinista:
1. Inferencia de Grafos Causales: Inferir todos los Grafos Acíclicos Dirigidos (DAG) consistentes con observaciones de intervenciones de un solo nodo.
2. Reconstrucción de Vóxeles 3D bajo Gravedad: Reconstruir configuraciones espaciales a partir de proyecciones 2D, respetando restricciones físicas (gravedad/apilamiento).
3. Interacciones Genéticas Booleanas: Proponer expresiones booleanas que relacionen fenotipos observados con programas subyacentes.
Métricas de Evaluación: Se definen tres indicadores complementarios para disociar la corrección de la exploración:
1. Validez (Validity - VR): Mide la precisión. ¿Qué porcentaje de las hipótesis propuestas son consistentes con las observaciones?
2. Unicidad (Uniqueness - NR): Mide la originalidad. ¿Qué porcentaje de las propuestas son no redundantes (únicas) entre sí?
3. Recuperación (Recovery - RR): Mide la fluidez y cobertura. ¿Qué fracción del conjunto total de hipótesis admisibles enumeradas ( $H_O$ ) logra cubrir el modelo?

3. Contribuciones Clave

Formulación Teórica: Enmarcan la evaluación de LLMs como un problema de inferencia de conjuntos bajo subdeterminación, introduciendo métricas que separan la corrección de la capacidad de exploración.
Suite de Diagnóstico Controlada: Tres tareas con enumeración exacta de espacios de hipótesis válidos, eliminando la subjetividad de evaluadores humanos (LLM-as-judge) y permitiendo mediciones precisas.
Hallazgos Empíricos: Demostración de que incluso los modelos de razonamiento de vanguardia sufren un colapso de modo (mode collapse): mantienen alta validez, pero la unicidad y la recuperación se degradan drásticamente a medida que crece el espacio de hipótesis.
Análisis Teórico del Colapso: Explican que, bajo distribuciones de probabilidad "picadas" (peaked), el presupuesto de muestreo necesario para cubrir un espacio grande crece exponencialmente, haciendo que la recuperación sea sublineal incluso con muchos intentos.

4. Resultados Experimentales

Se evaluaron modelos de vanguardia (GPT-5, Gemini-2.5-Pro, Claude-Opus-4, DeepSeek-R1, Grok-4, etc.) en los tres dominios.

Patrón Consistente: A medida que aumenta el tamaño del espacio de hipótesis admisibles ( $|H_O|$ $∣ H_{O} ∣$ ), los modelos exhiben un colapso de modo:
- Validez (VR): Se mantiene alta (a menudo >90-100% en modelos de razonamiento).
- Unicidad (NR) y Recuperación (RR): Caen drásticamente. Los modelos tienden a "girar en círculo" alrededor de un pequeño subconjunto de explicaciones admisibles, ignorando la "cola larga" del espacio de soluciones.
Comparación de Modelos: Los modelos con capacidades de razonamiento ("thinking models") superan consistentemente a los modelos instruidos no razonadores en NR y RR, pero no eliminan el problema de colapso; simplemente lo mitigan parcialmente.
Datos del Mundo Real: En un estudio con datos genéticos reales (levadura), se observó el mismo patrón: los modelos fuertes recuperaron hasta el 100% del espacio de hipótesis, mientras que modelos más débiles fallaron en generar hipótesis consistentes (VR=0%), a pesar de generar outputs diversos.

5. Solución Propuesta: Decodificación Estratificada por Complejidad

Para contrarrestar el sesgo de simplicidad de los LLMs (que prefieren hipótesis de baja complejidad), los autores proponen una técnica de decodificación estratificada:

En lugar de muestrear libremente, se itera sobre niveles de complejidad estructural (número de aristas, operadores, etc.).
Se solicita al modelo que genere hipótesis de exactamente ese nivel de complejidad.
Resultados: Esta técnica, libre de entrenamiento, mejora la recuperación de hipótesis complejas en varios modelos (ej. Grok-4 pasó de 0% a 17.2% en recuperación de casos complejos), aunque puede reducir ligeramente la recuperación de casos simples al redistribuir el presupuesto de consultas.

6. Significado e Impacto

Diagnóstico vs. Ranking: HypoSpace no es un ranking competitivo, sino una herramienta de diagnóstico para entender cómo fallan los modelos en la exploración de soluciones.
Implicaciones para la IA Científica: Revela que la alta precisión en tareas de un solo paso no garantiza la capacidad de un modelo para realizar descubrimiento científico, que requiere explorar múltiples explicaciones plausibles.
Dirección Futura: Sugiere que mejorar la exploración requiere reconfigurar la distribución de muestreo (como la decodificación estratificada) en lugar de simplemente aumentar el número de muestras o el tamaño del modelo.

En conclusión, el trabajo demuestra que los LLMs actuales son excelentes validadores de hipótesis (alta validez) pero exploradores deficientes de espacios de soluciones grandes (baja recuperación), un problema fundamental que debe abordarse para habilitar asistentes de IA verdaderamente científicos.