🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Este artículo presenta SCALAR, un punto de referencia diseñado para evaluar cómo los modelos fundacionales de materiales manejan la generalización de la escala geométrica y el razonamiento estructural a través de diversas estructuras de nanopartículas, revelando que, si bien el razonamiento explícito basado en la física puede reducir las alucinaciones y los errores, a menudo compromete la consistencia y la validez de los resultados.

Autores originales: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Publicado 2026-02-02

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes un arquitecto maestro que es increíblemente bueno leyendo planos para rascacielos perfectos e infinitos. Este arquitecto (un tipo de IA llamada "modelo fundacional") puede contarte todo sobre los materiales, la resistencia y el diseño de un edificio con solo mirar el plano.

Pero aquí está el truco: nunca se le ha pedido al arquitecto que diseñe un modelo diminuto de ese rascacielos hecho de LEGOs, ni se le ha pedido que averigüe cómo es el rascacielos original sosteniendo simplemente un ladrillo de LEGO en su mano.

El artículo presenta una nueva prueba llamada SCALAR para ver si estos arquitectos de IA pueden manejar el salto del "rascacielos infinito" al "diminuto modelo de LEGO" sin perder la cabeza.

El problema central: La trampa de la "alucinación"

En el mundo de la IA, una "alucinación" no es solo inventar algo; es afirmar con confianza algo que suena correcto pero que rompe las leyes de la física.

Piénsalo de esta manera: Si le pides a un humano que imagine una esfera perfecta hecha de agua, sabe que es redonda. Si le pides que imagine un cubo de agua, podría dudar porque el agua no forma cubos de forma natural. Pero si le pides a una IA que imagine un "cristal de agua cúbico" y esta dice con confianza: "Sí, las esquinas son afiladas y la densidad es alta", ha alucinado. Ha ignorado el hecho de que las moléculas de agua no funcionan de esa manera.

El artículo argumenta que los modelos de IA actuales son excelentes describiendo la versión "infinita" de un material (el cristal masivo o bulk crystal), pero a menudo fallan estrepitosamente cuando se les pide describir la versión "finita" (una nanopartícula diminuta). Pueden acertar con los números, pero violan las reglas subyacentes de cómo se mantienen unidos los átomos.

Cómo funciona la prueba (Los tres desafíos)

Los investigadores construyeron un conjunto de datos masivo de 100,000 estructuras, que van desde unos pocos átomos hasta más de 18,000 átomos. Luego, sometieron a la IA a tres pruebas específicas:

La prueba de "Alejamiento" (CIF a Propiedad):
- La configuración: Le das a la IA el plano de un cristal perfecto (la "Celda Unitaria").
- La tarea: La IA debe predecir las propiedades de una pieza diminuta y recortada de ese cristal (una "Nanopartícula").
- El giro: La IA tiene que averiguar cómo cambian las propiedades a medida que la pieza se hace más grande o más pequeña.
- El resultado: Muchas IA acertaron la matemática básica, pero fallaron en entender la tendencia. No pudieron decir de forma consistente: "A medida que la pieza se hace más grande, la densidad debería permanecer igual", o "A medida que se hace más pequeña, el área superficial cambia".
La prueba de "Pensar en voz alta" (Cadena de pensamiento / Chain-of-Thought):
- La configuración: Los investigadores le dijeron a la IA: "No te limites a darme la respuesta; explica tu razonamiento paso a paso usando la física".
- El resultado: Esto fue un arma de doble filo. A veces, obligar a la IA a "pensar" la hacía más precisa. Pero a menudo, la hacía menos consistente. Daba una explicación excelente en un intento, y una explicación completamente diferente y errónea en el siguiente, incluso para la misma pregunta exacta. Es como un estudiante que puede resolver un problema matemático perfectamente si lo escribe, pero se confunde si tiene que explicar por qué lo hizo.
La prueba del "Detective Inverso" (Recuperación Inversa):
- La configuración: Le das a la IA un conjunto de propiedades (por ejemplo: "Este material es pesado, tiene un volumen específico y es muy denso").
- La tarea: La IA debe elegir el plano correcto de entre una alineación de candidatos.
- El resultado: Algunas IA fueron sorprendentemente buenas en esto, actuando como detectives. Sin embargo, otras eligieron el plano equivocado incluso cuando su descripción del material era físicamente plausible. Encontraron un "casi acierto" que sonaba bien, pero que en realidad era el material equivocado.

El gran descubrimiento: La precisión es una mentira

El hallazgo más importante del artículo es que no puedes confiar en una IA solo porque obtenga el número correcto.

Imagina a un estudiante tomando un examen.

Estudiante A: Acierta el 90% de las respuestas, pero cambia su respuesta cada vez que le haces la misma pregunta.
Estudiante B: Acierta el 85%, pero sus respuestas son siempre consistentes y siguen un patrón lógico.

Los estándares actuales suelen fijarse solo en la puntuación (90% frente a 85%). Este artículo dice: "¡Un momento! El Estudiante A no es fiable porque no puede mantener coherente su historia".

Los investigadores descubrieron que cuando probaron a la IA con datos "Fuera de Distribución" (tamaños que la IA no había visto antes), la capacidad de la IA para mantenerse consistente y seguir las leyes de la física colapsó, incluso si sus números de precisión bruta parecían aceptables.

La Conclusión

El artículo concluye que necesitamos una nueva forma de medir la IA en la ciencia. No podemos limitarnos a preguntar: "¿Es correcta la respuesta?". Tenemos que preguntar:

"¿Es la respuesta consistente?"
"¿Sigue las leyes de la física?"
"¿Alucina cuando el tamaño del objeto cambia?"

El benchmark SCALAR es una herramienta diseñada para detectar estos momentos de "inteligente pero loco" antes de que confiemos estos modelos de IA para diseñar materiales del mundo real para cosas como baterías o medicinas. Es un baño de realidad para asegurar que, cuando una IA habla de átomos, realmente está hablando de átomos, y no solo inventando una historia que suena científica.

Resumen Técnico: SCALAR, un benchmark para modelos fundacionales de materiales

Declaración del Problema

Los modelos de lenguaje extensos (LLMs) y los modelos fundacionales se están aplicando cada vez más al razonamiento en la ciencia de materiales. Sin embargo, su comportamiento bajo cambios de distribución con estructura física —específicamente cambios en la escala estructural— sigue siendo poco comprendido. Mientras que los modelos pueden predecir propiedades con precisión para cristales masivos perfectos (representados por celdas unitarias), a menudo fallan cuando se les asigna el razonamiento sobre estructuras finitas derivadas (nanopartículas) que rompen la invariancia de traslación.

Las evaluaciones actuales suelen centrarse en la precisión de la tarea o la corrección del formato, rara vez evaluando la consistencia entre escalas. Este descuido permite que los modelos produzrgan salidas que pueden parecer localmente plausibles, pero que violan invariantes físicos globales (por ejemplo, la simetría cristalográfica, las restricciones de conservación y las relaciones geométricas dependientes de la escala). Tales violaciones constituyen una forma de alucinación estructural fundamentada: predicciones confiadas que son físicamente incorrectas debido a la violación de los invariantes subyacentes bajo cambios de distribución. Existe una falta de conjuntos de datos que proporcionen representaciones emparejadas del mismo objeto a través de múltiples escalas con divisiones controladas fuera de la distribución (OOD) para diagnosticar estos fallos.

Metodología: El Marco SCALAR

Los autores introducen SCALAR (Structural Consistency And Logic Across Regimes), un benchmark diseñado para evaluar la generalización de la escala geométrica y su conexión con la alucinación estructural, la consistencia y el razonamiento.

1. Construcción del Conjunto de Datos

El conjunto de datos se deriva de celdas unitarias relajadas mediante DFT de materiales cristalinos químicamente diversos (41 elementos únicos, incluyendo sistemas ricos en hidrógeno para el almacenamiento de energía).

Fase I (Construcción de Nanopartículas): Partiendo de una celda unitaria primitiva, se genera una supercelda de $20 \times 20 \times 20$ . Las nanopartículas finitas se crean mediante "tallado esférico", reteniendo los átomos dentro de una esfera de radio $R$ centrada en un origen. Los radios oscilan entre $10 $y$ 30$ Å, creando estructuras que van desde unos pocos átomos hasta más de 18,000 átomos (totalizando $\approx 100,000$ estructuras).
Fase II (Muestreo de Rotación): Para mitigar el sesgo de orientación, las estructuras se aumentan con rotaciones rígidas muestreadas en $SO(3)$ utilizando cuaterniones unitarios. Un muestreador codicioso asegura un espaciamiento geodésico mínimo entre rotaciones.
Fase III (Partición Consciente de la División): El conjunto de datos se divide en conjuntos de Entrenamiento, de Prueba en la Distribución (ID) y de Prueba Fuera de la Distribución (OOD).
- Separación ID/OOD: Las rotaciones en los conjuntos ID y OOD están estrictamente separadas del conjunto de entrenamiento mediante márgenes de exclusión ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) y parámetros de espaciamiento específicos.
- Partición de Radio: El entrenamiento incluye radios $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . El test ID usa $\{13, 15, 17, 20, 24, 27\}$ , mientras que el test OOD usa radios extremos $\{10, 11, 29, 30\}$ para sondear la extrapolación de escala.

2. Tareas de Evaluación

SCALAR define tres tareas para sondear diferentes aspectos de la capacidad del modelo:

Predicción de CIF a Propiedad: Los modelos predicen las propiedades de las nanopartículas (densidad, volumen, distancia de vecino más cercano) dado un Archivo de Información Cristalográfica (CIF).
Razonamiento de Cadena de Pensamiento (CoT): Una variante de la Tarea 1 que requiere pasos de razonamiento explícitos y fundamentados en la física antes de la predicción final.
Recuperación Inversa: Dada una propiedad objetivo, los modelos deben identificar la estructura cristalina correcta de un conjunto de candidatos.

3. Métricas

Las salidas se evalúan mediante métricas estructuradas que capturan:

Tasa de Alucinación: Frecuencia de predicciones que violan restricciones físicas (por ejemplo, densidades negativas) o fallos de autoconsistencia.
Consistencia: Desviación estándar de las predicciones numéricas a través de $N=5$ consultas independientes.
Calidad del Razonamiento: Correlación de rango de Spearman entre los cambios de propiedades predichos a través de los radios y los deltas de la verdad fundamental (ground-truth).
Precisión: Error Absoluto Medio (MAE) para predicciones numéricas.
Distancia Física y Arrepentimiento (Regret): Para la recuperación inversa, la distancia $L_2$ normalizada entre el vector de propiedades objetivo y el propuesto, y la suboptimidad del candidato seleccionado.

Resultados Clave

Los experimentos realizados en diversos modelos fundacionales (incluyendo GPT-5 Mini, o3-mini, Grok, Claude y variantes de LLaMA) revelan hallazgos significativos:

Colapsos Dependientes de la Escala: Los cambios de escala geométrica exponen fallos sistemáticos en el razonamiento físico y la consistencia entre escalas que no son aparentes solo mediante la precisión agregada. Las tasas de alucinación e inconsistencia aumentan drásticamente bajo escalas OOD, incluso cuando el error numérico se degrada solo modestamente.
Variabilidad Dependiente del Modelo: El rendimiento depende altamente del modelo. Por ejemplo, en la recuperación inversa, Grok 4.1 Fast logró una alta precisión top-1 ($0.808$ ID, $0.793$ OOD), mientras que otros como Claude 3 Haiku mostraron errores significativos de distancia física.
Sensibilidad Específica del Material: Los errores no son uniformes; dependen fuertemente de la estructura. Algunos materiales (por ejemplo, $LiCaH_3$ ) muestran incrementos relativos de error masivos ( $>30\%$ ) o reversiones de signo en regímenes OOD, mientras que otros permanecen estables.
Compromisos de la Cadena de Pensamiento (CoT): El uso de prompting de CoT arroja resultados heterogéneos. Aunque a menudo reduce los errores numéricos y las tasas de alucinación, frecuentemente desestabiliza la consistencia o degrada la calidad del razonamiento para modelos específicos. Las ganancias en las explicaciones intermedias no se traducen de manera fiable en predicciones más estables o físicamente consistentes.
Limitaciones de la Recuperación Inversa: Una alta precisión en la selección del candidato correcto no garantiza la fidelidad física. Algunos modelos mantienen distancias físicas bajas (errores de "casi acierto") a pesar de una moderada precisión de recuperación, mientras que otros fallan totalmente en alinearse con las propiedades físicas.
Comparaciones con Baselines: Tanto los LLMs basados en texto como las redes neuronales de grafos nativas de la geometría (por ejemplo, SchNet, E(3)NN) exhiben una degradación sustancial dependiente de la escala, con las GNN mostrando incrementos de MAPE de $\approx 100\%$ a $>300\%$ en regímenes OOD. Los baselines analíticos basados en leyes de escalamiento de volumen funcionan bien en propiedades intensivas pero fallan en las extensivas.

Significado y Reivindicaciones

El artículo afirma que la generalización de la escala geométrica no puede inferirse únicamente a partir de la precisión.

Alucinación Fundamentada: Los autores argumentan que los errores que violan invariantes físicos globales bajo cambios de escala estructural constituyen una forma específica y fundamentada de alucinación que requiere un diagnóstico dirigido.
Valor Diagnóstico: SCALAR proporciona una "lente fundamentada" para diagnosticar fallos de generalización geométrica que son invisibles para las métricas de precisión promedio del modelo. Destaca que las métricas de error superficiales subestiman sistemáticamente los fallos en el razonamiento estructural y físico.
Limitaciones de los Prompts Actuales: El estudio demuestra que el prompting de CoT no es una intervención monótona o universalmente beneficiosa; introduce compromisos donde un razonamiento mejorado puede tener a cambio un costo en la consistencia.
Dirección Futura: Al enmarcar la alucinación como una consecuencia de la inconsistencia geométrica y química, SCALAR ofrece un entorno para diagnosticar y mitigar fallos bajo cambios de distribución estructural realistas, allanando el camino para un despliegue más fiable de los modelos fundacionales en la ciencia de materiales.

Los autores señalan explícitamente las limitaciones, incluyendo el enfoque del conjunto de datos en la expansión determinista de superceldas (ignorando desorden/defectos), el uso de computaciones geométricas clásicas en lugar de observables cuánticos, y el potencial de la inestabilidad de formato de CoT para complicar la atribución.