Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, hochintelligenten Koch (ein KI-Modell), der gelernt hat, Rezepte für Tausende von verschiedenen Gerichten zu erstellen. Wenn Sie ihn fragen: „Wie schmeckt dieses Gericht?", kann er die Antwort sofort geben. Aber die große Frage ist: Wie denkt er eigentlich?

Versteht er den Unterschied zwischen den Zutaten (ist es Fleisch oder Gemüse?) und der Zubereitung (wie sind die Zutaten angeordnet und gekocht?), oder hat er beides in einem großen, unordentlichen Haufen im Kopf?

Diese Forschungsarbeit von Joshua Steier untersucht genau dieses Problem bei KI-Modellen, die Moleküle (die winzigen Bausteine der Chemie) verstehen sollen. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Zutaten-Trick"

Stellen Sie sich vor, Sie wollen einem Schüler beibringen, wie die Form eines Hauses aussieht. Aber Sie geben ihm nur eine Liste der verwendeten Steine (Zutaten). Wenn Sie ihn fragen: „Ist das Haus ein Bungalow?", wird er raten, weil Bungalows oft aus bestimmten Steinen bestehen. Er hat die Form nicht wirklich gelernt, sondern nur die Zutaten auswendig gelernt.

In der KI-Forschung passiert das Gleiche. Viele Modelle sagen die Eigenschaften von Molekülen voraus, indem sie einfach zählen, welche Atome drin sind (Kohlenstoff, Wasserstoff, Sauerstoff). Das ist ein „Trick". Die Forscher wollten herausfinden: Können diese Modelle auch wirklich die Form (die Geometrie) verstehen, wenn man ihnen den „Zutaten-Trick" verbietet?

2. Die Lösung: Der „Zutaten-Entferner" (CPD)

Die Forscher haben eine neue Methode erfunden, die sie CPD nennen. Stellen Sie sich das wie einen sehr strengen Filter vor:

Sie nehmen die Gedanken des KI-Modells.
Sie entfernen mathematisch alles, was mit den reinen Zutaten zu tun hat (wie viel Kohlenstoff, wie viele Wasserstoffatome).
Dann schauen sie: Was bleibt übrig?

Wenn das Modell die Form wirklich verstanden hat, sollte noch genug Information übrig bleiben, um zu sagen, wie das Molekül aussieht. Wenn nichts übrig bleibt, hat das Modell nur die Zutaten auswendig gelernt.

3. Die große Entdeckung: Der „Aufmerksamkeits-Gradient"

Die Forscher haben 10 verschiedene KI-Modelle getestet. Das Ergebnis war überraschend: Es gibt eine riesige Kluft zwischen den Modellen.

Die Gewinner: Modelle, die speziell darauf trainiert wurden, die Form von Molekülen zu verstehen (z. B. die Elektronenverteilung), haben ihre Gedanken sehr sauber sortiert. Sie können die Form perfekt von den Zutaten trennen.
Die Verlierer: Modelle, die nur darauf trainiert wurden, die Gesamtenergie (eine Art „Gesamtgewicht") vorherzusagen, haben ihre Gedanken chaotisch vermischt. Selbst wenn man die Zutaten entfernt, bleibt kaum noch etwas von der Form übrig.

Die wichtigste Erkenntnis: Es ist nicht das Design des Modells (ob es „modern" oder „alt" ist), sondern was es gelernt hat, das zählt.

Analogie: Ein Sportler, der nur Krafttraining macht (Energie-Training), wird nicht automatisch gut im Tanzen (Form-Training), auch wenn er ein sehr modernes Fitnessstudio (Architektur) nutzt. Um gut im Tanzen zu sein, muss man Tanzen üben!

4. Die Geheimtür: Symmetrie-Kanäle

Bei einem besonders fortschrittlichen Modell (MACE) haben die Forscher noch etwas Besonderes entdeckt. Dieses Modell hat verschiedene „Kommunikationskanäle" im Inneren:

Runde Kanäle (Skalare): Diese speichern Informationen, die sich nicht drehen (wie die Lücke zwischen Elektronen).
Pfeil-Kanäle (Vektoren): Diese speichern Informationen, die eine Richtung haben (wie ein Magnetfeld oder eine elektrische Ladung).

Das Modell hat gelernt, diese Informationen perfekt zu trennen: Die runden Kanäle kümmern sich um die runden Eigenschaften, die Pfeil-Kanäle um die gerichteten Eigenschaften. Es ist, als hätte das Modell separate Schubladen für verschiedene Arten von Wissen. Andere Modelle machen das nicht so sauber.

5. Die Warnung: Nicht zu viel Vertrauen in „starke" Detektoren

Ein sehr wichtiger technischer Punkt: Die Forscher haben festgestellt, dass man bei dieser Art von Untersuchung keine zu „starken" Detektoren verwenden darf.

Wenn man einen sehr cleveren, komplexen Detektor (einen „Baum-Algorithmus") benutzt, um zu prüfen, was übrig bleibt, lügt er. Er kann die entfernten Zutaten aus den Resten wiederherstellen und tut so, als hätte das Modell sie verstanden.
Die Lösung: Man muss einen einfachen, linearen Detektor verwenden. Nur dieser zeigt die Wahrheit: Was ist wirklich noch da, und was wurde erfolgreich entfernt?

Zusammenfassung für den Alltag

Stellen Sie sich vor, Sie kaufen einen neuen Sprach-Assistenten.

Wenn Sie wollen, dass er Emotionen versteht, kaufen Sie nicht einfach einen teuren, neuen Computer (Architektur). Sie müssen sicherstellen, dass er mit Emotions-Daten trainiert wurde.
Wenn er nur mit Wetterdaten trainiert wurde, wird er zwar sehr gut Wettervorhersagen treffen, aber bei Emotionen versagen, egal wie teuer der Computer ist.

Die Botschaft der Studie: Wenn Sie eine KI für eine spezifische Aufgabe (z. B. Medikamentenentwicklung) nutzen wollen, schauen Sie nicht nur auf die Architektur. Schauen Sie darauf, was das Modell gelernt hat. Ein Modell, das auf die richtige Art von Daten trainiert wurde, sortiert sein Wissen viel besser und ist für neue Aufgaben viel einfacher zu nutzen als ein „schöneres", aber falsch trainiertes Modell.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement" von Joshua Steier.

1. Problemstellung

Atomistische Fundamentmodelle (z. B. MACE, SchNet, PaiNN) sagen molekulare Eigenschaften mit hoher Genauigkeit voraus. Eine offene Frage ist jedoch, wie diese Modelle ihre internen Repräsentationen organisieren: Trennen sie die Zusammensetzung (welche Atome vorhanden sind) sauber von der Geometrie (wie diese Atome angeordnet sind)?

Das Hauptproblem bei der Analyse (Probing) dieser Repräsentationen ist die starke Korrelation zwischen Zusammensetzung und Geometrie. Viele molekulare Eigenschaften lassen sich bereits allein aus der Zusammensetzung vorhersagen. Ein herkömmlicher Probing-Ansatz kann daher nicht unterscheiden, ob ein Modell geometrische Informationen gelernt hat oder lediglich „Abkürzungen" über die Zusammensetzung nutzt. Zudem führt die Verwendung nichtlinearer Proben (wie Gradient Boosted Trees) auf residualisierten Daten zu irreführenden Ergebnissen, da diese nichtlinearen Modelle die projizierten Signale rekonstruieren können.

2. Methodik: Compositional Probe Decomposition (CPD)

Um dieses Problem zu lösen, führt das Paper die Compositional Probe Decomposition (CPD) ein. Dies ist ein zweistufiger Prozess, um den geometrischen Signalanteil zu isolieren:

Lineare Projektion (Entfernung der Zusammensetzung):
- Für jede Kreuzvalidierungs-Fold wird eine Ordinary Least Squares (OLS) Regression durchgeführt, um den linearen Zusammenhang zwischen den molekularen Repräsentationen ( $X$ ) und den Zusammensetzungsvektoren ( $Z$ , z. B. Elementanteile und Atomzahl) zu modellieren.
- Der lineare Anteil ( $\hat{X}_{comp} = Z\hat{\beta}$ ) wird von den Repräsentationen subtrahiert.
- Das Ergebnis ist ein geometrischer Residualvektor ( $X_{geom}$ ), der alle Informationen enthält, die linear orthogonal zur Zusammensetzung sind (inkl. Topologie, Bindungen, Konformationen).
- Wichtig: Die Projektion erfolgt fold-wise, um Informationslecks zu vermeiden.
Lineares Probing:
- Auf dem residualisierten Vektor $X_{geom}$ wird eine Ridge-Regression trainiert, um die Zielgröße (z. B. HOMO-LUMO-Lücke) vorherzusagen.
- Die erreichte $R^2$ -Kennzahl ( $R^2_{geom}$ ) misst, wie viel geometrische Information linear zugänglich ist.

Validierung: Das Paper validiert CPD durch vier unabhängige Checks, darunter ein Benchmark mit strukturellen Isomeren (gleiche Zusammensetzung, unterschiedliche Geometrie). Hier sollte der kompositionelle Anteil zufällig raten (50 %), während der geometrische Rest hohe Klassifikationsgenauigkeit zeigen muss.

Warnung vor nichtlinearen Proben: Das Paper zeigt, dass Gradient Boosted Trees (GBTs) auf residualisierten Daten für rein zusammensetzungsabhängige Ziele (wie die durchschnittliche Atommasse) hohe $R^2$ -Werte (0,68–0,95) erzielen. Dies liegt daran, dass GBTs nichtlineare Funktionen der Zusammensetzung aus den Resten rekonstruieren können. Daher wird für residualisierte Daten strikt die Verwendung linearer Proben empfohlen.

3. Experimentelles Setup

Modelle: 10 Modelle aus 5 Architekturfamilien (MACE, PaiNN, ViSNet, SchNet, DimeNet++, ANI-2x).
Daten: Hauptsächlich QM9 (kleine organische Moleküle), erweitert um Material Project-Kristalle.
Variablen: Unterscheidung nach Architektur (invariant vs. äquivariant, Tensor-Produkte), Trainingsziel (Energie vs. HOMO-LUMO-Lücke) und Datenvielfalt (QM9-only vs. diverse Vortraining-Daten).

4. Wichtige Ergebnisse

A. Der lineare Zugänglichkeits-Gradient

Es gibt einen signifikanten Unterschied (Faktor 6,6x) darin, wie viel geometrische Information nach Entfernung der Zusammensetzung linear abgerufen werden kann. Die $R^2_{geom}$ -Werte für die HOMO-LUMO-Lücke reichen von 0,081 (MACE QM9 30ep) bis 0,533 (PaiNN).

Dieser Gradient wird durch drei Faktoren bestimmt:

Task Alignment (Aufgaben-Alignment) – Der dominierende Faktor:
- Modelle, die auf HOMO-LUMO-Lücken trainiert wurden, schneiden deutlich besser ab ( $R^2_{geom} \approx 0,44–0,53$ ) als Modelle, die nur auf Energie trainiert wurden.
- Der Unterschied beträgt ca. 0,25 $R^2$ , unabhängig von der Architektur.
- Beispiel: PaiNN (auf HL trainiert) erreicht 0,533; derselbe PaiNN-Architektur, aber auf Energie trainiert (PaiNN-energy), erreicht nur 0,310.
- Begründung: Die HOMO-LUMO-Lücke ist stark geometrieabhängig, während die Gesamtenergie stark zusammensetzungsabhängig ist. Modelle passen ihre Repräsentationen an das Trainingsziel an.
Äquivarianz (Equivariance) – Bedingte Wirkung:
- Äquivariante Architekturen (wie MACE mit Tensor-Produkten) garantieren keine bessere geometrische Zugänglichkeit, wenn das Trainingsziel nicht passt.
- Ein äquivariantes MACE-Modell, das nur auf Energie trainiert wurde, erreicht sogar schlechtere Werte (0,081) als einfachere invariante Modelle (SchNet: 0,262).
- Äquivarianz ist nur in Kombination mit einem passenden Trainingsziel vorteilhaft.
Datenvielfalt – Kompensation:
- Große Vortrainingsdatensätze (z. B. MACE auf MPTraj) können die fehlende Aufgaben-Alignment teilweise ausgleichen (0,364 vs. 0,081 bei QM9-only), erreichen aber nicht das Niveau von task-aligned Modellen.

B. Informationsrouting durch irreduzible Darstellungen

In äquivarianten Modellen wie MACE wird Information basierend auf Symmetrietypen routet:

Skalare Kanäle (L=0): Kodieren primär skalare Eigenschaften wie die HOMO-LUMO-Lücke ( $R^2 = 0,76$ ).
Vektor-Kanäle (L=1): Kodieren primär vektorielle Eigenschaften wie das Dipolmoment ( $R^2 = 0,59$ ).
Dieses Muster fehlt in ViSNet, wo fast alle Informationen in den skalaren Kanälen konzentriert sind, was auf Unterschiede in der Implementierung von Tensor-Produkten hinweist.

C. Sample Efficiency

Modelle mit gut entkoppelten Repräsentationen (wie PaiNN) benötigen deutlich weniger Daten, um geometrische Signale zu extrahieren. Ein PaiNN-Modell mit nur 50 Molekülen im Testset übertrifft SchNet mit 2.000 Molekülen.

5. Bedeutung und Beiträge

Methodischer Durchbruch: Einführung von CPD als validierte Methode zur Trennung von Zusammensetzung und Geometrie in molekularen Modellen. Nachweis, dass nichtlineare Proben auf residualisierten Daten systematisch überhöhte Werte liefern.
Paradigmenwechsel in der Modellbewertung: Die Studie widerlegt die Annahme, dass äquivariante Architekturen per se bessere geometrische Repräsentationen liefern. Stattdessen ist das Trainingsziel (Task Alignment) der entscheidende Faktor für die lineare Zugänglichkeit von Geometrie.
Architekturelle Einsichten: Aufdeckung, wie spezifische Architekturen (MACE vs. ViSNet) Informationen durch Symmetrie-Kanäle routen, was für die Interpretierbarkeit und das Design zukünftiger Modelle relevant ist.
Praktische Implikationen: Für Anwender bedeutet dies, dass bei der Auswahl vortrainierter Modelle für geometrie-sensitive Aufgaben (z. B. elektronische Eigenschaften) ein Modell, das auf einer ähnlichen Eigenschaft trainiert wurde, einem reinen Energie-Modell (selbst wenn es äquivariant ist) vorzuziehen ist.

Zusammenfassend zeigt das Paper, dass die Organisation von Informationen in atomistischen Fundamentmodellen weniger durch die Architektur als vielmehr durch die Interaktion von Trainingsziel und Datenvielfalt bestimmt wird. Lineare Entkopplung ist kein automatisches Ergebnis von Äquivarianz, sondern das Ergebnis eines gut abgestimmten Trainingsprozesses.