🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Dieses Paper führt SCALAR ein, einen Benchmark, der darauf ausgelegt ist, zu bewerten, wie Material-Foundation-Modelle die Generalisierung geometrischer Skalen und strukturelles Denken über diverse Nanopartikelstrukturen hinweg handhaben, wobei aufgezeigt wird, dass explizites, auf Physik basierendes Denken zwar Halluzinationen und Fehler reduzieren kann, jedoch oft die Konsistenz und Validität der Ergebnisse beeinträchtigt.

Ursprüngliche Autoren: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Veröffentlicht 2026-02-02

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie hätten einen Meisterarchitekten, der unglaublich gut darin ist, Blaupausen für perfekte, unendliche Wolkenkratzer zu lesen. Dieser Architekt (eine Art von KI, ein sogenanntes „Foundation Model“) kann Ihnen alles über die Materialien, die Festigkeit und das Design des Gebäudes sagen, nur indem er die Blaupause betrachtet.

Aber es gibt einen Haken: Der Architekt wurde noch nie gebeten, ein winziges Modell dieses Wolkenkratzers aus LEGO-Steinen zu entwerfen, noch wurde er gefragt, wie der ursprüngliche Wolkenkratzer aussieht, nur indem er einen einzelnen LEGO-Stein in der Hand hält.

Das Paper stellt einen neuen Test namens SCALAR vor, um zu prüfen, ob diese KI-Architekten den Sprung vom „unendlichen Wolkenkratzer“ zum „winzigen LEGO-Modell“ schaffen können, ohne den Verstand zu verlieren.

Das Kernproblem: Die „Halluzinationsfalle“

In der Welt der KI ist eine „Halluzination“ nicht einfach nur das Erfinden von etwas; es ist das selbstbewusste Behaupten von etwas, das zwar richtig klingt, aber gegen die Gesetze der Physik verstödet.

Denken Sie an Folgendes: Wenn Sie einen Menschen bitten, sich eine perfekte Kugel aus Wasser vorzustellen, weiß er, dass sie rund ist. Wenn Sie ihn bitten, sich einen Würfel aus Wasser vorzustellen, wird er vielleicht zögern, weil Wasser von Natur aus keine Würfel bildet. Aber wenn Sie eine KI bitten, sich einen „kubischen Wasserkristall“ vorzustellen, und sie selbstbewusst sagt: „Ja, die Ecken sind scharf und die Dichte ist hoch“, dann hat sie halluziniert. Sie hat ignoriert, dass Wassermoleküle auf diese Weise nicht funktionieren.

Das Paper argumentiert, dass aktuelle KI-Modelle großartig darin sind, die „unendliche“ Version eines Materials (den Bulk-Kristall) zu beschreiben, aber oft kläglich scheitern, wenn sie gefragt werden, die „endliche“ Version (ein winziges Nanopartikel) zu beschreiben. Sie mögen die Zahlen richtig hinbekommen, verletzen aber die zugrunde liegenden Regeln, wie Atome aneinanderhaften.

Wie der Test funktioniert (Die drei Herausforderungen)

Die Forscher haben einen massiven Datensatz mit 100.000 Strukturen erstellt, die von wenigen Atomen bis hin zu über 18.000 Atomen reichen. Dann haben sie die KI drei spezifischen Tests unterzogen:

Der „Herauszoom“-Test (CIF zu Eigenschaft):
- Das Setup: Sie geben der KI die Blaupause eines perfekten Kristalls (die „Einheitszelle“).
- Die Aufgabe: Die KI muss die Eigenschaften eines winzigen, abgeschnittenen Stücks dieses Kristalls (ein „Nanopartikel“) vorhersagen.
- Der Clou: Die KI muss herausfinden, wie sich die Eigenschaften ändern, wenn das Stück größer oder kleiner wird.
- Das Ergebnis: Viele KIs bekamen die grundlegende Mathematik hin, scheiterten aber daran, den Trend zu verstehen. Sie konnten nicht konsistent sagen: „Wenn das Stück größer wird, sollte die Dichte gleich bleiben“ oder „Wenn es kleiner wird, ändert sich die Oberfläche“.
Der „Laut-Denken“-Test (Chain-of-Thought):
- Das Setup: Die Forscher sagten der KI: „Gib mir nicht nur die Antwort; erkläre deine Argumentation Schritt für Schritt unter Verwendung der Physik.“
- Das Ergebnis: Dies war ein zweischneidiges Schwert. Manchmal machte das Erzwingen des „Nachdenkens“ die KI präziser. Oft führte es jedoch dazu, dass die KI weniger konsistent wurde. Sie lieferte in einem Versuch eine großartige Erklärung und in einem völlig anderen (falschen) Versuch eine ganz andere Erklärung, selbst bei exakt derselben Frage. Es ist wie ein Schüler, der eine Matheaufgabe perfekt löst, wenn er sie aufschreibt, aber verwirrt ist, wenn er erklären muss, warum er es getan hat.
Der „Detektiv-Umkehr“-Test (Inverse Retrieval):
- Das Setup: Sie geben der KI eine Reihe von Eigenschaften (z. B. „Dieses Material ist schwer, hat ein spezifisches Volumen und ist sehr dicht“).
- Die Aufgabe: Die KI muss die korrekte Blaupause aus einer Auswahl an Kandidaten auswählen.
- Das Ergebnis: Einige KIs waren überraschend gut darin, wie Detektive zu agieren. Andere wählten jedoch die falsche Blaupause aus, selbst wenn ihre Beschreibung des Materials physikalisch plausibel war. Sie fanden einen „Beinahe-Treffer“, der zwar richtig klang, aber tatsächlich das falsche Material war.

Die große Entdeckung: Genauigkeit ist eine Lüge

Die wichtigste Erkenntnis des Papers ist: Man kann einer KI nicht trauen, nur weil sie die richtige Zahl liefert.

Stellen Sie sich einen Schüler vor, der einen Test schreibt.

Schüler A beantwortet 90 % der Fragen richtig, ändert aber jedes Mal seine Antwort, wenn man ihn dieselbe Frage stellt.
Schüler B beantwortet 85 % richtig, aber seine Antworten sind immer konsistent und folgen einem logischen Muster.

Aktuelle Benchmarks schauen meist nur auf die Punktzahl (90 % vs. 85 %). Dieses Paper sagt: „Moment mal! Schüler A ist unzuverlässig, weil er seine Geschichte nicht einhalten kann.“

Die Forscher fanden heraus, dass, wenn sie die KI mit „Out-of-Distribution“-Daten testeten (Größen, die die KI noch nicht gesehen hatte), die Fähigkeit der KI, konsistent zu bleiben und physikalischen Gesetzen zu folgen, zusammenbrach, selbst wenn ihre rohen Genauigkeitswerte passabel aussahen.

Das Fazit

Das Paper kommt zu dem Schluss, dass wir eine neue Art und Weise brauchen, um KI in der Wissenschaft zu messen. Wir können nicht nur fragen: „Ist die Antwort richtig?“ Wir müssen fragen:

„Ist die Antwort konsistent?“
„Folgt sie den Gesetzen der Physik?“
„Halluziniert sie, wenn sich die Größe des Objekts ändert?“

Der SCALAR-Benchmark ist ein Werkzeug, das dazu dient, diese „klugen, aber verrückten“ Momente abzufangen, bevor wir diesen KI-Modellen vertrauen, um reale Materialien für Dinge wie Batterien oder Medizin zu entwickeln. Es ist ein Realitätscheck, um sicherzustellen, dass eine KI, wenn sie über Atome spricht, tatsächlich über Atome spricht und nicht nur eine Geschichte erfindet, die wissenschaftlich klingt.

Technisches Resümee: SCALAR-Benchmark für Material-Foundation-Modelle

Problemstellung

Große Sprachmodelle (LLMs) und Foundation-Modelle werden zunehmend auf das materialwissenschaftliche Denken angewendet. Ihr Verhalten unter physikalisch strukturierten Verteilungsverschiebungen – insbesondere Änderungen der strukturellen Skala – bleibt jedoch unzureichend verstanden. Während Modelle Eigenschaften für perfekte Bulk-Kristalle (repräsentiert durch Elementarzellen) präzise vorhersagen können, scheitern sie oft bei der Aufgabe, abgeleitete endliche Strukturen (Nanopartikel) zu analysieren, die die Translationsinvarianz brechen.

Aktuelle Evaluierungen konzentrieren sich typischerweise auf Aufgaben-Genauigkeit oder Formatkorrektheit, bewerten aber selten die skalenübergreifende Konsistenz. Dieses Versäumnis ermöglicht es Modellen, Ausgaben zu produzieren, die lokal plausibel erscheinen, aber globale physikalische Invarianten (z. B. kristallographische Symmetrie, Erhaltungsgrößen und skalenabhängige geometrische Relationen) verletzen. Solche Verletzungen stellen eine prinzipielle Form der strukturellen Halluzination dar: selbstbewusste Vorhersagen, die aufgrund der Verletzung zugrunde liegender Invarianten unter Verteilungsverschiebungen physikalisch inkorrekt sind. Es mangelt an Datensätzen, die gepaarte Repräsentationen desselben Objekts über mehrere Skalen hinweg mit kontrollierten Out-of-Distribution (OOD)-Splits bereitstellen, um diese Fehler zu diagnostizieren.

Methodik: Das SCALAR-Framework

Die Autoren führen SCALAR (Structural Consistency And Logic Across Regimes) ein, einen Benchmark, der darauf ausgelegt ist, die Generalisierung der geometrischen Skala und deren Verbindung zu struktureller Halluzination, Konsistenz und logischem Denken zu bewerten.

1. Datensatzkonstruktion

Der Datensatz leitet sich von DFT-relaxierten Elementarzellen chemisch diverser kristalliner Materialien ab (41 einzigartige Elemente, einschließlich wasserstoffreicher Systeme für die Energiespeicherung).

Phase I (Nanopartikel-Konstruktion): Ausgehend von einer primitiven Elementarzelle wird eine $20 \times 20 \times 20$ Superzelle generiert. Endliche Nanopartikel werden durch „sphärisches Ausschneiden“ erzeugt, wobei Atome innerhalb einer Kugel mit dem Radius $R$ , zentriert an einem Ursprung, beibehalten werden. Die Radien reichen von $10$ bis $30$ Å und erzeugen Strukturen, die von wenigen Atomen bis zu über 18.000 Atomen reichen (insgesamt $\approx 100.000$ Strukturen).
Phase II (Rotations-Sampling): Um Orientierungs-Bias zu minimieren, werden die Strukturen mit starren Rotationen angereichert, die mittels unitären Quaternionen auf $SO(3)$ gesampelt wurden. Ein Greedy-Sampler stellt einen minimalen geodätischen Abstand zwischen den Rotationen sicher.
Phase III (Split-bewusste Partitionierung): Der Datensatz wird in Trainings-, In-Distribution (ID) Test- und Out-of-Distribution (OOD) Test-Sets unterteilt.
- ID/OOD-Trennung: Rotationen in den ID- und OOD-Sets sind durch Exklusionsmargen ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) und spezifische Abstandsparameter strikt vom Trainingssatz getrennt.
- Radius-Partitionierung: Das Training umfasst Radien $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . Der ID-Test nutzt $\{13, 15, 17, 20, 24, 27\}$ , während der OOD-Test extreme Radien $\{10, 11, 29, 30\}$ verwendet, um die Skalextrapolation zu prüfen.

2. Evaluierungsaufgaben

SCALAR definiert drei Aufgaben, um verschiedene Aspekte der Modellkapazität zu untersuchen:

CIF zu Eigenschaftsvorhersage: Modelle sagen die Eigenschaften von Nanopartikeln (Dichte, Volumen, nächste Nachbarschaftsdistanz) vor, gegeben eine Kristallographische Informationsdatei (CIF).
Chain-of-Thought (CoT) Reasoning: Eine Variante von Aufgabe 1, die explizite, physikbasierte Gedankenschritte vor der endgültigen Vorhersage erfordert.
Inverse Retrieval (Umgekehrte Suche): Gegeben Ziel-Eigenschaften müssen Modelle die korrekte Kristallstruktur aus einer Menge von Kandidaten identifizieren.

3. Metriken

Die Ausgaben werden über strukturierte Metriken evaluiert, die Folgendes erfassen:

Halluzinationsrate: Häufigkeit von Vorhersagen, die physikalische Constraints verletzen (z. B. negative Dichten) oder Selbstkonsistenz-Fehler aufweisen.
Konsistenz: Standardabweichung der numerischen Vorhersagen über $N=5$ unabhängige Abfragen hinweg.
Qualität des Reasonings: Spearman-Rangkorrelation zwischen vorhergesagten Eigenschaftsänderungen über Radien hinweg und den Ground-Truth-Differenzen.
Genauigkeit: Mittlerer absoluter Fehler (MAE) für numerische Vorhersagen.
Physikalischer Abstand & Regret: Für das Inverse Retrieval: normalisierte $L_2$ -Distanz zwischen Ziel- und vorgeschlagenem Eigenschaftsvektor sowie die Suboptimalität des ausgewählten Kandidaten.

Kernergebnisse

Experimente über diverse Foundation-Modelle hinweg (einschließlich GPT-5 Mini, o3-mini, Grok, Claude und LLaMA-Varianten) zeigen signifikante Erkenntnisse:

Skalenabhängige Zusammenbrüche: Verschiebungen der geometrischen Skala legen systematische Fehler im physikalischen Denken und in der skalenübergreifenden Konsistenz offen, die in der aggregierten Genauigkeit nicht ersichtlich sind. Halluzinationsraten und Inkonsistenzen steigen unter OOD-Skalen scharf an, selbst wenn der numerische Fehler nur moderat degradiert.
Modellabhängige Variabilität: Die Leistung ist stark modellabhängig. So erreichte beispielsweise Grok 4.1 Fast eine hohe Top-1-Genauigkeit ($0,808$ ID, $0,793$ OOD), während andere wie Claude 3 Haiku signifikante Fehler im physikalischen Abstand zeigten.
Materialspezifische Sensitivität: Fehler sind nicht uniform; sie sind stark strukturabhängig. Einige Materialien (z. B. $LiCaH_3$ ) zeigen massive relative Fehlersteigerungen ( $>30\%$ ) oder Vorzeichenumkehrungen in OOD-Regimen, während andere stabil bleiben.
Chain-of-Thought (CoT) Trade-offs: CoT-Prompting liefert heterogene Ergebnisse. Während es oft numerische Fehler und Halluzinationsraten reduziert, destabilisiert es häufig die Konsistenz oder verschlechtert die Qualität des Reasonings für spezifische Modelle. Gewinne in den Zwischenerklärungen übertragen sich nicht zuverlässig auf stabilere oder physikalisch konsistentere Vorhersagen.
Limitationen des Inverse Retrieval: Eine hohe Genauigkeit bei der Auswahl des korrekten Kandidaten garantiert keine physikalische Treue. Einige Modelle weisen trotz moderater Retrieval-Genauigkeit geringe physikalische Abstände auf (Near-Miss-Fehler), während andere die physikalischen Eigenschaften völlig ignorieren.
Baseline-Vergleiche: Sowohl textbasierte LLMs als auch geometrie-native Graph Neural Networks (z. B. SchNet, E(3)NN) zeigen substanzielle skalenabhängige Degradation, wobei GNNs MAPE-Steigerungen von $\approx 100\%$ auf $>300\%$ in OOD-Regimen aufweisen. Analytische Baselines basierend auf Volumen-Skalierungsgesetzen funktionieren gut bei intensiven Eigenschaften, versagen jedoch bei extensiven Eigenschaften.

Bedeutung und Ansprüche

Das Paper behauptet, dass die Generalisierung der geometrischen Skala nicht allein aus der Genauigkeit abgeleitet werden kann.

Prinzipielle Halluzination: Die Autoren argumentieren, dass Fehler, welche globale physikalische Invarianten unter strukturellen Skalenverschiebungen verletzen, eine spezifische, prinzipielle Form der Halluzination darstellen, die eine gezielte Diagnose erfordert.
Diagnostischer Wert: SCALAR bietet eine „prinzipielle Linse“, um geometrische Generalisierungsfehler zu diagnostizieren, die in modellgemittelten Genauigkeitsmetriken unsichtbar bleiben. Es verdeutlicht, dass oberflächliche Fehlermetriken die Defizite im strukturellen und physikalischen Denken systematisch unterschätzen.
Limitationen aktueller Prompts: Die Studie zeigt, dass CoT-Prompting keine monotone oder universell vorteilhafte Intervention ist; es führt Trade-offs ein, bei denen verbessertes Reasoning auf Kosten der Konsistenz gehen kann.
Zukünftige Richtung: Indem sie Halluzination als Folge von geometrischer und chemischer Inkonsistenz rahmen, bietet SCALAR ein Setting zur Diagnose und Milderung von Fehlern unter realistischen strukturellen Verteilungsverschiebungen, was den Weg für eine zuverlässigere Anwendung von Foundation-Modellen in den Materialwissenschaften ebnet.

Die Autoren weisen explizit auf Limitationen hin, einschließlich der Fokussierung des Datensatzes auf deterministische Superzellen-Expansion (unter Vernachlässigung von Unordnung/Defekten), der Verwendung klassischer geometrischer Berechnungen statt Quanten-Observablen und der potenziellen Instabilität des CoT-Formatings, die die Attribution erschweren kann.