🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Este artigo apresenta o SCALAR, um benchmark projetado para avaliar como os modelos de fundação de materiais lidam com a generalização de escala geométrica e o raciocínio estrutural através de diversas estruturas de nanopartículas, revelando que, embora o raciocínio explícito baseado em física possa reduzir alucinações e erros, ele frequentemente compromete a consistência e a validade dos resultados.

Autores originais: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Publicado 2026-02-02

📖 5 min de leitura🧠 Leitura aprofundada

CC BY 4.0

Autores originais: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você tem um arquiteto mestre que é incrivelmente bom em ler plantas de arranha-céus perfeitos e infinitos. Este arqueto (um tipo de IA chamada "modelo de fundação") pode lhe dizer tudo sobre os materiais, a resistência e o design do edifício apenas olhando para a planta.

Mas há um porém: o arquiteto nunca foi solicitado a projetar um modelo minúsculo desse arranha-céu feito de LEGOs, nem foi solicitado a descobrir como o arranha-céu original se parece apenas segurando um único tijolinho de LEGO em sua mão.

O artigo apresenta um novo teste chamado SCALAR para ver se esses arquitetos de IA conseguem lidar com a transição do "arranha-céu infinito" para o "modelo minúsculo de LEGO" sem perder a sanidade.

O Problema Central: A Armadilha da "Alucinação"

No mundo da IA, uma "alucinação" não é apenas inventar algo; é afirmar algo com confiança que soa correto, mas que quebra as leis da física.

Pense nisso da seguinte forma: Se você pedir a um humano para imaginar uma esfera perfeita feita de água, ele sabe que ela é redonda. Se você pedir para ele imaginar um cubo de água, ele pode hesitar porque a água não forma cubos naturalmente. Mas se você pedir a uma IA para imaginar um "cristal de água cúbico" e ela disser confiantemente: "Sim, os cantos são afiados e a densidade é alta", ela alucinou. Ela ignorou o fato de que as moléculas de água não funcionam dessa maneira.

O artigo argumenta que os modelos de IA atuais são ótimos em descrever a versão "infinita" de um material (o cristal volumétrico/bulk), mas frequentemente falham miseravelmente quando solicitados a descrever a versão "finita" (uma nanopartícula minúscula). Eles podem acertar os números, mas violam as regras subjacentes de como os átomos se unem.

Como o Teste Funciona (Os Três Desafios)

Os pesquisadores construíram um enorme conjunto de dados de 100.000 estruturas, variando de alguns átomos a mais de 18.000 átomos. Em seguida, colocaram a IA através de três testes específicos:

O Teste do "Zoom-Out" (CIF para Propriedade):
- A Configuração: Você dá à IA a planta de um cristal perfeito (a "Célula Unitária").
- A Tarefa: A IA deve prever as propriedades de um pedaço minúsculo e recortado desse cristal (uma "Nanopartícula").
- A Reviravolta: A IA tem que descobrir como as propriedades mudam conforme a peça fica maior ou menor.
- O Resultado: Muitas IAs acertaram a matemática básica, mas falharam em entender a tendência. Elas não conseguiam dizer consistentemente: "À medida que a peça fica maior, a densidade deve permanecer a mesma", ou "À medida que ela fica menor, a área de superfície muda".
O Teste do "Pensar em Voz Alta" (Cadeia de Pensamento/Chain-of-Thought):
- A Configuração: Os pesquisadores disseram à IA: "Não me dê apenas a resposta; explique seu raciocínio passo a passo usando a física".
- O Resultado: Isso foi uma faca de dois gumes. Às vezes, forçar a IA a "pensar" a tornava mais precisa. Mas, muitas vezes, tornava a IA menos consistente. Ela dava uma explicação excelente em uma tentativa, e uma explicação completamente diferente (e errada) na próxima, mesmo para a exata mesma pergunta. É como um aluno que resolve um problema de matemática perfeitamente se escrever o passo a passo, mas se confunde se tiver que explicar o porquê de ter feito aquilo.
O Teste do "Detetive Reverso" (Busca Inversa/Inverse Retrieval):
- A Configuração: Você dá à IA um conjunto de propriedades (ex: "Este material é pesado, tem um volume específico e é muito denso").
- A Tarefa: A IA deve escolher a planta correta de uma fileira de candidatas.
- O Resultado: Algumas IAs foram surpreendentemente boas nisso, agindo como detetives. No entanto, outras escolheram a planta errada, mesmo quando sua descrição do material era fisicamente plausível. Elas encontraram um "quase acerto" que parecia certo, mas que era, na verdade, o material errado.

A Grande Descoberta: Precisão é uma Mentira

A descoberta mais importante do artigo é que você não pode confiar em uma IA apenas porque ela acerta o número.

Imagine um aluno fazendo uma prova.

Aluno A acerta 90% das questões, mas muda sua resposta toda vez que você faz a mesma pergunta.
Aluno B acerta 85%, mas suas respostas são sempre consistentes e seguem um padrão lógico.

Os benchmarks atuais geralmente olham apenas para a pontuação (90% vs 85%). Este artigo diz: "Espere um minuto! O Aluno A é não confiável porque ele não consegue manter a própria história coerente".

Os pesquisadores descobriram que, quando testaram a IA com dados "Fora da Distribuição" (tamanhos que a IA não tinha visto antes), a capacidade da IA de manter a consistência e seguir as leis da física colapsou, mesmo que seus números de precisão bruta parecessem aceitáveis.

A Conclusão

O artigo conclui que precisamos de uma nova maneira de medir a IA na ciência. Não podemos apenas perguntar: "A resposta está certa?" Temos que perguntar:

"A resposta é consistente?"
"Ela segue as leis da física?"
"Ela alucina quando o tamanho do objeto muda?"

O benchmark SCALAR é uma ferramenta projetada para capturar esses momentos de "inteligente, mas louco" antes de confiarmos nesses modelos de IA para projetar materiais do mundo real para coisas como baterias ou medicamentos. É um choque de realidade para garantir que, quando uma IA fala sobre átomos, ela está realmente falando sobre átomos, e não apenas criando uma história que soa científica.

Resumo Técnico: SCALAR – Benchmark para Modelos de Fundação de Materiais

Declaração do Problema

Grandes modelos de linguagem (LLMs) e modelos de fundação estão sendo cada vez mais aplicados ao raciocínio em ciência dos materiais. No entanto, seu comportamento sob mudanças de distribuição estruturalmente estruturadas — especificamente mudanças na escala estrutural — permanece mal compreendido. Embora os modelos possam prever propriedades com precisão para cristais volumulares perfeitos (representados por células unitárias), eles frequentemente falham ao serem incumbidos de raciocinar sobre estruturas finitas derivadas (nanopartículas) que quebram a invariância de translação.

As avaliações atuais focam tipicamente na precisão da tarefa ou na correção de formatação, raramente avaliando a consistência entre escalas. Essa negligência permite que os modelos produzam saídas que parecem localmente plausíveis, mas que violam invariantes físicos globais (ex: simetria cristalográfica, restrições de conservação e relações geométricas dependentes da escala). Tais violações constituem uma forma fundamentada de alucinação estrutural: previsões confiantes que são fisicamente incorretas devido à violação de invariantes subjacentes sob mudanças de distribuição. Há uma carência de conjuntos de dados que forneçam representações pareadas do mesmo objeto em múltiplas escalas com divisões controladas fora da distribuição (OOD) para diagnosticar essas falhas.

Metodologia: O Framework SCALAR

Os autores introduzem o SCALAR (Structural Consistency And Logic Across Regimes), um benchmark projetado para avaliar a generalização de escala geométrica e sua conexão com alucinação estrutural, consistência e raciocínio.

1. Construção do Conjunto de Dados

O conjunto de dados é derivado de células unitárias relaxadas via DFT de materiais cristalinos quimicamente diversos (41 elementos únicos, incluindo sistemas ricos em hidrogênio para armazenamento de energia).

Fase I (Construção de Nanopartículas): Partindo de uma célula unitária primitiva, uma supercélula de $20 \times 20 \times 20$ é gerada. Nanopartículas finitas são criadas por "escultura esférica", retendo átomos dentro de uma esfera de raio $R$ centrada em uma origem. Os raios variam de $10 $a$ 30$ Å, criando estruturas que abrangem de poucos átomos a mais de 18.000 átomos (totalizando $\approx 100.000$ estruturas).
Fase II (Amostragem de Rotação): Para mitigar o viés de orientação, as estruturas são aumentadas com rotações rígidas amostradas em $SO(3)$ usando quaternions unitários. Um amostrador ganancioso garante o espaçamento geodésico mínimo entre as rotações.
Fase III (Particionamento Consciente de Divisões): O conjunto de dados é dividido em conjuntos de Treinamento, Teste Dentro da Distribuição (ID) e Teste Fora da Distribuição (OOD).
- Separação ID/OOD: As rotações nos conjuntos ID e OOD são estritamente separadas do conjunto de treinamento por margens de exclusão ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) e parâmetros de espaçamento específicos.
- Particionamento de Raio: O treinamento inclui raios $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . O teste ID usa $\{13, 15, 17, 20, 24, 27\}$ , enquanto o teste OOD usa raios extremos $\{10, 11, 29, 30\}$ para investigar a extrapolação de escala.

2. Tarefas de Avaliação

O SCALAR define três tarefas para sondar diferentes aspectos da capacidade do modelo:

Previsão de CIF para Propriedade: Os modelos preveem propriedades de nanopartículas (densidade, volume, distância de vizinho mais próximo) dado um Arquivo de Informação Cristalográfica (CIF).
Raciocínio de Cadeia de Pensamento (CoT): Uma variante da Tarefa 1 que exige etapas de raciocínio explícitas e fundamentadas na física antes da previsão final.
Recuperação Inversa: Dada uma propriedade alvo, os modelos devem identificar a estrutura cristalina correta a partir de um conjunto de candidatos.

3. Métricas

As saídas são avaliadas via métricas estruturadas que capturam:

Taxa de Alucinação: Frequência de previsões que violam restrições físicas (ex: densidades negativas) ou falhas de autoconsistência.
Consistência: Desvio padrão das previsões numéricas através de $N=5$ consultas independentes.
Qualidade do Raciocínio: Correlação de postos de Spearman entre as mudanças de propriedades previstas através dos raios e os deltas da verdade fundamental (ground-truth).
Precisão: Erro Médio Absoluto (MAE) para previsões numéricas.
Distância Física e Arrependimento (Regret): Para recuperação inversa, distância $L_2$ normalizada entre os vetores de propriedade alvo e proposto, e a subotimalidade do candidato selecionado.

Principais Resultados

Experimentos em diversos modelos de fundação (incluindo GPT-5 Mini, o3-mini, Grok, Claude e variantes LLaMA) revelam descobertas significativas:

Colapsos Dependentes da Escala: Mudanças de escala geométrica expõem falhas sistemáticas no raciocínio físico e na consistência entre escalas que não são aparentes apenas pela precisão agregada. As taxas de alucinação e inconsistência aumentam drasticamente sob escalas OOD, mesmo quando o erro numérico degrada apenas modestamente.
Variabilidade Dependente do Modelo: O desempenho é altamente dependente do modelo. Por exemplo, na recuperação inversa, o Grok 4.1 Fast alcançou alta precisão top-1 ($0.808$ ID, $0.793$ OOD), enquanto outros como o Claude 3 Haiku mostraram erros significativos de distância física.
Sensibilidade Específica ao Material: Os erros não são uniformes; são fortemente dependentes da estrutura. Alguns materiais (ex: $LiCaH_3$ ) mostram aumentos relativos massivos de erro ( $>30\%$ ) ou reversões de sinal em regimes OOD, enquanto outros permanecem estáveis.
Compromissos da Cadeia de Pensamento (CoT): O prompting de CoT produz resultados heterogêneos. Embora frequentemente reduza erros numéricos e taxas de alucinação, ele frequentemente desestabiliza a consistência ou degrada a qualidade do raciocínio para modelos específicos. Ganhos em explicações intermediárias não se traduzem confiavelmente em previsões mais estáveis ou fisicamente consistentes.
Limitações da Recuperação Inversa: Alta precisão na seleção do candidato correto não garante fidelidade física. Alguns modelos mantêm baixa distância física (erros de "quase acerto") apesar de uma precisão de recuperação moderada, enquanto outros falham em alinhar-se totalmente com as propriedades físicas.
Comparações de Linha de Base (Baseline): Tanto os LLMs baseados em texto quanto as redes neurais de grafos nativas de geometria (ex: SchNet, E(3)NN) exibem uma degradação substancial dependente da escala, com as GNNs mostrando aumentos de MAPE de $\approx 100\%$ para $>300\%$ em regimes OOD. Baselines analíticas baseadas em leis de escala de volume performam bem em propriedades intensivas, mas falham em extensivas.

Significância e Alegações

O artigo alega que a generalização de escala geométrica não pode ser inferida apenas pela precisão.

Alucinação Fundamentada: Os autores argumentam que erros que violam invariantes físicos globais sob mudanças de escala estrutural constituem uma forma específica e fundamentada de alucinação que requer diagnóstico direcionado.
Valor Diagnóstico: O SCALAR fornece uma "lente fundamentada" para diagnosticar falhas de generalização geométrica que são invisíveis às métricas de precisão média do modelo. Ele destaca que métricas de erro de superfície subestimam sistematicamente as falhas no raciocínio estrutural e físico.
Limitações dos Prompts Atuais: O estudo demonstra que o prompting de CoT não é uma intervenção monotônica ou universalmente benéfica; ele introduz compromissos onde o raciocínio aprimorado pode vir ao custo da consistência.
Direção Futura: Ao enquadrar a alucinação como uma consequência da inconsistência geométrica e química, o SCALAR oferece um cenário para diagnosticar e mitigar falhas sob mudanças de distribuição estrutural realistas, pavimentando o caminho para a implantação mais confiável de modelos de fundação na ciência dos materiais.

Os autores explicitamente notam limitações, incluindo o foco do conjunto de dados em expansão de supercélula determinística (ignorando desordem/defeitos), o uso de computações geométricas clássicas em vez de observáveis quânticos, e o potencial de instabilidade de formatação de CoT para complicar a atribuição.