Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Este estudio evalúa la fiabilidad y codificación del conocimiento de 25 modelos de lenguaje en ciencias de los materiales, revelando que la modalidad de salida determina su comportamiento (siendo las tareas simbólicas más consistentes que las numéricas), que la extracción de embeddings intermedios puede superar a la salida de texto en regresiones numéricas debido a un cuello de botella, y que las variaciones de rendimiento a lo largo del tiempo plantean desafíos significativos para la reproducibilidad científica.

Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti

Publicado 2026-03-03
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje Grandes (LLMs), como el famoso ChatGPT, son como genios universitarios que han leído casi todo lo escrito en internet, incluidos millones de artículos científicos sobre materiales. Ahora, los científicos de materiales quieren usar a estos genios para predecir cosas: desde "¿de qué color es este material?" hasta "¿cuánta electricidad dejará pasar?".

Este estudio es como una gran prueba de aptitud que le hicieron a 25 de estos genios (incluyendo a los más famosos y a algunos de código abierto) para ver qué tan buenos son realmente en la ciencia de materiales.

Aquí tienes los hallazgos principales, explicados con analogías sencillas:

1. La gran diferencia: "Contar historias" vs. "Hacer cuentas"

El descubrimiento más importante es que estos genios se comportan de forma totalmente diferente dependiendo de si les pides una respuesta de texto (simbólica) o un número (numérico).

  • Las preguntas de texto (Simbólicas):

    • El problema: Antes de estudiar, si le preguntas al genio "¿Qué propiedades tiene el óxido de titanio?", a menudo responde con tonterías o inventa cosas. Es como un estudiante que no ha estudiado y adivina al azar.
    • La solución: Cuando los científicos les dan un "curso intensivo" (lo que se llama fine-tuning o ajuste fino), el genio aprende de verdad. Deja de adivinar y empieza a dar respuestas consistentes y correctas.
    • La analogía: Es como pasar de un turista perdido en un museo (que no sabe nada) a un guía experto que conoce cada cuadro de memoria.
  • Las preguntas de números (Numéricas):

    • El problema: Aquí es donde se pone peligroso. Si le pides al genio "¿Cuál es el valor exacto de la conductividad?", incluso antes de estudiar, suele dar un número muy específico y decirlo con mucha seguridad. ¡Pero a menudo está totalmente equivocado!
    • La solución: El "curso intensivo" mejora la precisión de los números, pero el genio sigue siendo demasiado seguro de sí mismo.
    • La analogía: Imagina a un adivino que, aunque no sabe nada de meteorología, te dice con total certeza: "Mañana lloverán 43.2 milímetros". Si le das un curso de meteorología, quizás acierte con 40 milímetros, pero sigue hablando con la misma seguridad absoluta. Esto es peligroso porque te hace confiar en un número que podría estar mal.

2. El "Cuello de botella" en la cabeza del genio

Los científicos hicieron algo muy curioso: en lugar de preguntar al genio qué piensa, le "leyeron la mente" (miraron sus capas internas de procesamiento) antes de que hablara.

  • El hallazgo: Para predecir propiedades como el "hueco de banda" (un tipo de energía), la información correcta ya estaba ahí, escondida en su cerebro, antes de que el genio intentara escribir la respuesta.
  • El problema: El genio tiene un "cuello de botella" en su boca (la parte que genera texto). Tiene la respuesta correcta en su interior, pero al intentar convertirla en palabras y números, se le escapa o la distorsiona.
  • La analogía: Es como tener un chef que sabe exactamente cómo hacer un pastel perfecto (la información está en su mente), pero cuando intenta explicarte la receta o servírtelo, se le cae el pastel o lo sirve en un plato roto. La solución podría ser no pedirle que hable, sino simplemente "leer" su mente directamente para obtener el número.

3. ¿Qué aprenden realmente? (Memoria vs. Comprensión)

Algunos pensaban que estos genios estaban aprendiendo las leyes de la física. El estudio dice que no es así.

  • La realidad: Aprenden a conectar palabras basándose en lo que han leído antes. Si en los libros leen mucho "PZT" junto con "piezoeléctrico", aprenden a asociar esas dos palabras.
  • La analogía: Es como un estudiante que memoriza que "el sol sale por el este" porque lo ha visto en 1000 libros, pero no entiende realmente por qué la Tierra gira. Si le preguntas sobre un planeta que nunca ha leído, no podrá deducir la respuesta, solo intentará adivinar basándose en patrones que ya conoce.

4. El peligro de los "Genios de la Nube" (Inestabilidad)

El estudio también vigiló a los modelos de pago (como GPT-4) durante 18 meses.

  • El problema: A diferencia de los modelos que puedes descargar y guardar en tu computadora (que siempre son iguales), los modelos de la nube cambian sin avisar.
  • La analogía: Es como si fueras a tu restaurante favorito y, cada vez que pides tu plato habitual, el chef cambiara la receta secretamente. Un día el pastel sabe dulce, al siguiente salado, y nadie te avisa.
  • El riesgo: Para la ciencia, esto es un desastre. Si un científico publica un resultado hoy basado en un modelo de la nube, dentro de seis meses ese mismo modelo podría dar un resultado diferente, haciendo que el trabajo anterior sea irreproducible.

En resumen

Este estudio nos dice que:

  1. No confíes ciegamente en los números que dan estos genios, incluso si suenan muy seguros.
  2. Para preguntas de texto, entrenarlos un poco los hace excelentes.
  3. Para preguntas de números, a veces es mejor "leerles la mente" (usar sus datos internos) que escuchar lo que dicen.
  4. Si haces ciencia seria, es mejor usar modelos que puedas guardar y controlar, en lugar de depender de servicios en la nube que cambian sin avisar.

Es una guía práctica para no caer en la trampa de pensar que la Inteligencia Artificial ya "sabe" todo, y entender mejor dónde están sus límites reales.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →