Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Este estudo avalia 25 modelos de linguagem em tarefas de ciência dos materiais, revelando que a modalidade de saída (simbólica versus numérica) determina fundamentalmente a confiabilidade e a consistência das previsões, identificando um gargalo no cabeçalho do modelo para tarefas numéricas que pode ser contornado pela extração de embeddings intermediários, além de documentar variações significativas de desempenho ao longo do tempo que desafiam a reprodutibilidade científica.

Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de 25 chefs de cozinha superinteligentes (os Modelos de Linguagem ou LLMs). Eles leram milhões de livros de receitas e artigos científicos, mas nunca cozinhou um prato específico para um cliente exigente antes. O objetivo deste estudo foi ver o quão bons esses chefs são em ciência dos materiais (o estudo de como criar e entender materiais como cerâmicas, metais e cristais).

Os pesquisadores testaram esses chefs em quatro tipos de tarefas diferentes e descobriram algo muito importante: o tipo de pergunta que você faz muda completamente como o chef se comporta.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. A Grande Divisão: Perguntas de "Sim/Não" vs. Perguntas de "Números"

O estudo dividiu as tarefas em dois mundos:

  • O Mundo dos Símbolos (Classificação e Conexões):

    • Exemplo: "De que tipo de cristal é este material?" ou "O que este material tem em comum com aquele?"
    • O Problema: Antes de treinar, os chefs eram muito confusos. Eles davam respostas aleatórias, como se estivessem chutando. A "entropia" (uma medida de confusão) era alta.
    • A Solução: Quando os pesquisadores deram a eles um "curso rápido" (fine-tuning), os chefs se tornaram muito consistentes. Eles pararam de chutar e começaram a dar a resposta certa com confiança.
    • Analogia: É como ensinar um aluno a decorar a tabela periódica. No começo, ele erra tudo e gagueja. Depois de estudar, ele responde "Ouro é Au" sem hesitar.
  • O Mundo dos Números (Previsão de Valores):

    • Exemplo: "Qual é a energia exata (bandgap) deste material?" ou "Qual é o valor da constante dielétrica?"
    • O Problema: Aqui estava a armadilha! Mesmo antes de treinar, os chefs pareciam superconfiantes, mas estavam errados. Eles diziam "A resposta é 4,52" com tanta certeza que parecia verdade, mas o valor real era 10,0. Isso é chamado de "alucinação confiante".
    • O Treinamento: O curso rápido (fine-tuning) ajudou a melhorar os números, mas a confusão (entropia) não sumiu. Às vezes, eles ficavam mais errados na forma de escrever o número, mesmo que o valor estivesse melhor.
    • Analogia: É como um adivinho que diz "A loteria vai ser 10, 20, 30..." com tanta certeza que você acredita, mas ele nunca ganha. O treinamento o fez adivinhar números mais próximos da realidade, mas ele continua sendo um adivinho, não um matemático.

2. O "Gargalo da Cabeça" (O Segredo Escondido)

Os pesquisadores fizeram algo genial: eles não olharam apenas para o que o chef falou, mas olharam para o que o chef pensou antes de falar.

  • A Descoberta: Para prever a "bandgap" (uma propriedade de energia), o cérebro do modelo (as camadas internas) sabia a resposta quase perfeita. Mas, quando o modelo tentava escrever a resposta em texto, ele estragava tudo.
  • A Analogia: Imagine um gênio da matemática que sabe a resposta exata de uma conta complexa na cabeça, mas quando tenta escrever no papel, ele tem dificuldade em formar os números ou comete erros de digitação.
  • O Resultado: Para algumas propriedades (como a bandgap), é melhor "ler a mente" do modelo (usar os dados internos) do que esperar que ele escreva a resposta. Para outras (como a constante dielétrica), o modelo nem sabia a resposta na mente, então escrever não ajudou.

3. O Chef que Aprende por "Associação"

Quando o modelo aprendeu a completar conexões (saber que "TiO2 é piezoelétrico"), ele não aprendeu a física por trás disso. Ele aprendeu por associação estatística.

  • A Analogia: Imagine que você vê "PZT" (um material) escrito ao lado de "sensor", "eletricidade" e "cerâmica" em milhares de livros. O modelo aprende que, se alguém perguntar sobre "sensores", a palavra "PZT" provavelmente aparecerá. Ele não sabe por que o PZT funciona, ele apenas sabe que as palavras costumam andar juntas.
  • O Perigo: Se você perguntar sobre um material muito raro que nunca apareceu nos livros, o modelo vai ter dificuldade, porque ele não tem essas "amizades" estatísticas para se apoiar.

4. O Chef que Muda de Rosto (Problema de Reprodutibilidade)

Os pesquisadores acompanharam os modelos da OpenAI (como o GPT-4) por 18 meses.

  • O Problema: Eles perceberam que o "chef" mudava de personalidade sem avisar. Um dia, o GPT-4o era muito bom; três meses depois, sem ninguém ter feito nada, ele ficou 43% pior em uma tarefa específica.
  • A Analogia: É como se você fosse a um restaurante favorito, e o chef mudasse a receita secretamente a cada visita, sem avisar. Às vezes a comida fica ótima, às vezes fica ruim. Para a ciência, isso é um pesadelo, porque você não consegue repetir o experimento se o "chef" mudou.

Resumo Final para Levar para Casa

  1. LLMs são ótimos para "saber fatos" (símbolos), mas ruins em "fazer contas" (números). Eles podem alucinar números com muita confiança.
  2. O treinamento ajuda, mas não é mágica. Ele faz o modelo ser mais consistente, mas não resolve o problema de "alucinação confiante" nos números.
  3. Às vezes, o modelo sabe mais do que consegue dizer. Para algumas coisas, é melhor olhar para os dados internos do modelo do que confiar no texto que ele gera.
  4. Cuidado com modelos de "API" (online). Eles mudam sem aviso. Se você está fazendo ciência séria, é melhor usar modelos que você pode baixar e manter congelados no tempo, para garantir que seus resultados sejam sempre os mesmos.

Em suma: Os modelos de linguagem são ferramentas poderosas para a ciência dos materiais, mas precisamos saber exatamente como usá-los e quando confiar neles, pois eles não são "inteligentes" como humanos, são apenas mestres em encontrar padrões em textos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →