Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🧬 Die große Entschlüsselung: Was KI über Gene wirklich weiß (und was nicht)

Stell dir vor, du hast zwei extrem intelligente Bibliothekare, die Millionen von Büchern über menschliche Zellen gelesen haben. Diese Bibliothekare sind die KI-Modelle Geneformer und scGPT. Sie können Zellen erkennen, vorhersagen, wie sie auf Medikamente reagieren, und Zusammenhänge zwischen Genen finden.

Aber die große Frage war: Verstehen diese Bibliothekare wirklich, warum Dinge passieren? Oder merken sie sich nur, welche Wörter oft zusammen vorkommen?

Ein Forscher namens Ihor Kendiukhov hat jetzt einen genialen Trick angewendet, um in das Gehirn dieser KIs zu schauen. Er hat sie wie einen Lego-Bausatz auseinandergenommen, um zu sehen, welche einzelnen Bausteine (Features) sie eigentlich benutzen.

1. Der Trick: Der "Super-Decoder" (Sparse Autoencoder)

Normalerweise sind die Gedanken einer KI wie ein riesiger, undurchsichter Nebel. Tausende von Informationen laufen gleichzeitig durch den Computer, und man kann nicht sagen, welcher Teil für was steht. Das nennt man "Superposition" (alles ist gleichzeitig drin).

Der Forscher hat einen Super-Decoder (einen sogenannten Sparse Autoencoder) gebaut. Stell dir das wie einen Super-Lupe vor, die den Nebel in einzelne, klare Lichtstrahlen zerlegt. Jeder Lichtstrahl steht für ein ganz bestimmtes biologisches Konzept – zum Beispiel "Zellteilung", "Immunabwehr" oder "Energieproduktion".

Das Ergebnis:
Die KIs haben nicht nur ein paar Konzepte gelernt. Sie haben über 100.000 verschiedene biologische Konzepte in ihrem Gedächtnis gespeichert! Das ist unglaublich viel, besonders weil sie nur einen begrenzten Speicherplatz haben. Es ist, als würde jemand versuchen, eine ganze Bibliothek in einen Schuhkarton zu quetschen, indem er die Bücher so dünn wie Papier macht und sie perfekt stapelt.

2. Die gute Nachricht: Die KIs sind Biologie-Experten

Als der Forscher diese 100.000 Lichtstrahlen (Features) genauer ansah, stellte er fest:

Sie sind organisiert: Die KIs haben ihre Wissen in klare Gruppen eingeteilt. Es gibt Module für "Zellteilung", Module für "Immunsystem" und Module für "Stressreaktion".
Sie sind hierarchisch: In den unteren Schichten der KI (den "Grundlagen") erkennen sie einfache Dinge wie "Proteine bauen". In den oberen Schichten (den "Gedanken") verstehen sie komplexe Szenarien wie "Wie sich eine Zelle in eine Nervenzelle verwandelt".
Sie sind vernetzt: Die Informationen fließen wie auf einer Autobahn durch die verschiedenen Schichten der KI.

Fazit bisher: Die KIs haben das menschliche Biologie-Wissen (welche Gene zu welchen Gruppen gehören) perfekt verinnerlicht. Sie wissen, wer mit wem befreundet ist.

3. Die schlechte Nachricht: Sie verstehen keine Kausalität (Ursache und Wirkung)

Hier wird es spannend. Der Forscher wollte wissen: Verstehen die KIs, wer den Befehl gibt?
In der Biologie gibt es "Chefs" (Transkriptionsfaktoren), die anderen Genen sagen: "Mach das!" oder "Hör auf!".

Der Forscher hat einen Test gemacht: Er hat simuliert, dass ein bestimmter "Chef" (ein Transkriptionsfaktor) in einer Zelle ausgeschaltet wird (wie bei einem CRISPR-Experiment).

Die Erwartung: Die KI sollte sofort erkennen: "Aha! Der Chef ist weg, also müssen diese 50 spezifischen Ziel-Gene auch ausfallen."
Die Realität: Die KI hat zwar gemerkt: "Hey, irgendethas ist passiert! Die Zelle fühlt sich anders an." Aber sie konnte nicht sagen, welche spezifischen Gene vom fehlenden Chef gesteuert wurden.

Das Ergebnis: Nur bei 6 % der Fälle konnte die KI die richtige Verbindung zwischen Chef und Ziel herstellen. Bei den restlichen 94 % wusste sie nur, dass sich das Gesamtbild geändert hat, aber nicht, warum.

Die Analogie:
Stell dir vor, du siehst, dass im Stadion alle Fans aufstehen und jubeln.

Die KI weiß: "Aha, es ist ein Tor gefallen! Die Stimmung ist hoch!" (Sie erkennt die Korrelation).
Aber sie weiß nicht: "Der Spieler mit der Nummer 10 hat den Ball geschossen, und deshalb jubeln die Fans." (Sie verpasst die Kausalität).

4. Warum ist das so?

Der Forscher hat geprüft, ob das Problem an den Trainingsdaten lag (vielleicht waren nicht genug verschiedene Zellen dabei). Er hat die KI mit noch mehr Daten gefüttert (verschiedene Gewebe wie Niere, Lunge, Immunsystem).
Das Ergebnis? Es hat sich kaum verbessert.
Das bedeutet: Das Problem liegt in der KI selbst. Die Art, wie diese Modelle heute trainiert werden, lehrt sie, Muster zu erkennen (wer kommt oft mit wem vor?), aber nicht, wer wen steuert (wer ist der Chef?).

🎯 Das Fazit in einem Satz

Diese KI-Modelle sind wie brillante Biologie-Studenten, die auswendig gelernt haben, welche Gene oft zusammenarbeiten. Aber sie sind noch keine erfahrenen Forscher, die verstehen, welche Gene die eigentlichen Befehle geben und welche nur mitmachen.

Was bringt uns das?

Wir haben jetzt eine interaktive Karte (eine Webseite), auf der man sich diese 100.000 biologischen Konzepte in den KIs ansehen kann.
Wir wissen jetzt genau, wo die Grenzen dieser KIs liegen: Sie sind super für Vorhersagen, aber wir müssen sie noch besser trainieren, damit sie wirklich verstehen, wie das Leben funktioniert (Ursache und Wirkung).

Die Studie zeigt also: Wir haben einen riesigen Schritt gemacht, um die "Sprache" der KI zu verstehen, aber die KI lernt noch, die "Grammatik" des Lebens wirklich zu durchschauen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Einzelzell-Grundlagenmodelle (Single-Cell Foundation Models, scFMs) wie Geneformer und scGPT haben sich als leistungsfähige Werkzeuge für die Analyse genomischer Daten erwiesen. Sie lernen kontextuelle Repräsentationen von Genen aus Millionen von Transkriptomprofilen. Eine zentrale, jedoch unbeantwortete Frage ist jedoch, ob diese Modelle kausale regulatorische Logik (d.h. die gerichteten Beziehungen zwischen Transkriptionsfaktoren und ihren Zielgenen) tatsächlich internalisiert haben oder ob ihre Repräsentationen lediglich statistische Ko-Expressionsmuster widerspiegeln, die mit Regulation korrelieren, aber nicht äquivalent dazu sind.

Bisherige Analysen auf Basis von Aufmerksamkeitsgewichten (Attention Weights) deuteten darauf hin, dass diese eher Ko-Expression als regulatorische Signale erfassen. Da Aufmerksamkeitsgewichte jedoch nur einen Aspekt der internen Berechnung darstellen, bleibt unklar, ob die Residual Streams (die Summe aller Schichtausgaben, die Informationen durch das Netzwerk transportieren) eine reichhaltigere Struktur enthalten, die kausale Mechanismen kodiert.

Methodik

Die Autoren wenden erstmals systematisch Sparse Autoencoder (SAEs) auf biologische Grundlagenmodelle an, um das Phänomen der Superposition aufzulösen.

Modelle und Daten:
- Geneformer V2-316M: 18 Schichten, 1.152 versteckte Dimensionen, trainiert auf ~30 Mio. Zellen (Rank-Value-Tokenisierung).
- scGPT Whole-Human: 12 Schichten, 512 Dimensionen, trainiert auf ~33 Mio. Zellen (Continuous-Value-Encoding).
- Daten: Aktivierungen wurden aus den Residual Streams aller Schichten extrahiert (Geneformer: 2.000 K562 Kontrollzellen; scGPT: 3.000 Tabula Sapiens Zellen).
SAE-Architektur (TopK SAEs):
- Es wurden SAEs mit einem 4-fach überkompletten Wörterbuch trainiert (Geneformer: 4.608 Features pro Schicht; scGPT: 2.048 Features).
- Sparsity-Constraint: Top-K-Sparsity mit $k=32$ (nur die 32 aktivsten Features pro Position werden behalten).
- Ziel: Zerlegung der dichten Aktivierungen in interpretierbare, sparse Merkmale, die biologischen Konzepten entsprechen.
Analyse-Pipeline:
- Annotation: Vergleich der Top-20 aktivierenden Gene pro Feature mit Datenbanken (GO, KEGG, Reactome, STRING, TRRUST).
- Superposition-Test: Vergleich der SAE-Features mit den Top-50 SVD-Achsen (Singulärwertzerlegung).
- Kausalitätstest (Causal Patching): Gezieltes „Nullsetzen" (Ablation) einzelner SAE-Features im Residual Stream und Messung der Auswirkung auf die Ausgabe-Logits (Spezifität für Zielgene vs. andere Gene).
- Perturbations-Mapping: Test der Feature-Reaktionen auf CRISPRi-Knockdowns (Replogle-Datensatz), um zu prüfen, ob Features spezifisch auf regulatorische Targets reagieren.
- Kontroll-Experiment: Training von Multi-Tissue-SAEs (K562 + Tabula Sapiens), um zu unterscheiden, ob die Limitierung im Modell oder im Trainingsdatensatz liegt.

Hauptbeiträge

Erstellung von Feature-Atlanten: Die ersten umfassenden Atlanten für scFMs mit insgesamt 107.052 interpretierbaren Features (82.525 für Geneformer, 24.527 für scGPT) über 30 Schichten hinweg.
Nachweis massiver Superposition: Demonstration, dass biologische Modelle weit mehr Konzepte kodieren, als ihre Dimensionalität vermuten lässt, und dass diese für lineare Methoden (SVD) unsichtbar sind.
Kausale Charakterisierung: Systematischer Nachweis, dass SAE-Features kausal notwendig für bestimmte Berechnungen sind, aber keine spezifische regulatorische Logik kodieren.
Interaktive Plattformen: Veröffentlichung von Web-Tools zur Exploration der Features (Geneformer Feature Atlas & scGPT Feature Atlas).

Wichtige Ergebnisse

1. Massive Superposition und biologische Organisation

Superposition: 99,8 % der SAE-Features sind für SVD unsichtbar (keine hohe Ähnlichkeit zu den Top-SVD-Achsen). Diese „neuartigen" Features tragen 98,7 % aller biologischen Annotationen.
Kompression: Geneformer kodiert mindestens 82.525 biologische Konzepte in 1.152 Dimensionen (Kompressionsverhältnis > 70:1).
Biologische Anreicherung: 29–59 % der Features lassen sich biologischen Ontologien zuordnen. Die Anreicherungsraten folgen einem U-förmigen Profil über die Schichten:
- Frühe Schichten: Molekulare Maschinerie (Zellzyklus, Translation).
- Mittlere Schichten: Abstrakte Berechnungen (geringere Annotation).
- Späte Schichten: Re-Spezialisierung auf integrative Programme (Zelldifferenzierung, Signalwege).

2. Modulare Struktur und Informationsflüsse

Features organisieren sich in ko-aktive Module (141 Module bei Geneformer, 76 bei scGPT), die biologisch kohärente Gruppen bilden (z.B. „Immun-Signaling", „Mitochondrien-Organisation").
Cross-Layer-Information Highways: Trotz der Tatsache, dass Features schichtspezifisch sind (keine direkte Persistenz von Schicht 0 zu Schicht 17), existieren starke funktionale Verbindungen. 97–99,8 % der Features sind Teil dieser Informationsautobahnen.

3. Kausale Spezifität vs. Regulatorische Logik (Das zentrale Ergebnis)

Kausale Notwendigkeit: Das Ablation einzelner Features zeigt, dass diese kausal notwendig sind. Die Spezifität (Einfluss auf Zielgene vs. andere Gene) ist signifikant (Median 2,36-fach; Top-Feature 114,5-fach). Dies beweist, dass die Features echte biologische Signale kodieren.
Fehlende regulatorische Spezifität: Bei Tests mit CRISPRi-Perturbationen reagierten die Modelle zwar auf den Zellzustandswechsel (92 % Detektion), aber nur 6,2 % (3 von 48) der Transkriptionsfaktoren zeigten Features, die spezifisch auf ihre bekannten regulatorischen Targets reagierten.
Schlussfolgerung: Die Modelle kodieren Ko-Expressionsstrukturen und Pfad-Zugehörigkeiten, aber keine kausale regulatorische Logik (TF $\to$ Target). Sie wissen, dass eine Störung vorliegt, aber nicht, welche spezifischen Ziele reguliert werden müssten.

4. Modell als Bottleneck

Ein Multi-Tissue-Experiment (Training auf K562 + diverse Gewebe) verbesserte die regulatorische Spezifität nur marginal (von 6,2 % auf 10,4 %) und nicht systematisch. Dies bestätigt, dass die Limitierung im Modell selbst (den gelernten Repräsentationen) liegt und nicht im SAE-Training oder den Daten.

Bedeutung und Fazit

Die Studie liefert einen tiefen Einblick in die „Black Box" biologischer Transformer-Modelle:

Interpretierbarkeit: SAEs sind ein mächtiges Werkzeug, um die in biologischen Modellen kodierten Konzepte zu entschlüsseln, die für lineare Analysen unsichtbar bleiben.
Grenzen aktueller Modelle: Trotz ihrer beeindruckenden Fähigkeiten zur Zelltyp-Annotation und Vorhersage von Perturbationen fehlt diesen Modellen das Verständnis für kausale regulatorische Netzwerke. Sie lernen Korrelationen, nicht Kausalität.
Zukünftige Richtungen: Um regulatorische Logik zu lernen, müssten Trainingsziele (Loss Functions) geändert werden, die explizit zwischen Ursache und Wirkung unterscheiden (z.B. Perturbations-Vorhersage als primäres Ziel während des Pre-Trainings).

Die veröffentlichten Feature-Atlanten bieten der Community eine neue Ressource, um über 100.000 biologische Konzepte in diesen Modellen zu explorieren und die Grenzen zwischen statistischer Assoziation und biologischem Verständnis zu definieren.