Understanding protein function with a multimodal retrieval-augmented foundation model

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Proteine sind wie hochkomplexe Lego-Bauwerke. Sie bestehen aus einer langen Kette von Bausteinen (den Aminosäuren), die sich zu einer dreidimensionalen Form falten. Diese Form bestimmt, was das Bauwerk tut: Ist es ein Motor, ein Schlüssel, ein Schild oder ein Werkzeug im Körper?

Das Problem für Wissenschaftler ist: Es gibt unendlich viele Möglichkeiten, diese Bausteine zu kombinieren. Wenn man einen einzigen Baustein austauscht, kann das ganze Bauwerk funktionieren, kaputtgehen oder sogar gefährlich werden.

Bisherige Computermodelle, die versuchen, diese Bauwerke zu verstehen, hatten zwei große Schwächen:

Sie waren wie starre Bibliothekare, die nur einzelne Wörter (Bausteine) ändern konnten, aber nicht ganze Sätze (Einfügungen oder Löschungen) verstehen.
Sie waren oft riesig und teuer, wie ein Supercomputer, der nur für eine sehr spezifische Aufgabe gebaut wurde, aber bei neuen Aufgaben schnell scheiterte.

PoET-2 ist der neue, clevere Assistent, den die Autoren entwickelt haben. Hier ist, wie er funktioniert, erklärt mit einfachen Bildern:

1. Der "Reiseführer" statt der "Enzyklopädie" (Retrieval-Augmentation)

Stellen Sie sich vor, Sie wollen ein neues, funktionierendes Lego-Modell bauen.

Die alten Modelle versuchten, alles auswendig zu lernen. Sie hatten riesige Datenbanken im Kopf, aber wenn Sie etwas Neues fragten, das sie nicht genau kannten, waren sie ratlos.
PoET-2 funktioniert wie ein Reiseführer mit einem Smartphone. Wenn Sie ein neues Modell bauen wollen, sucht PoET-2 sofort nach ähnlichen, bereits existierenden Modellen (seinen "Verwandten" oder Homologen) in einer riesigen Datenbank. Er schaut sich an: "Wie haben andere das gemacht? Welche Regeln gelten hier?"
Der Vorteil: Er muss nicht alles auswendig lernen. Er lernt durch den Kontext. Das macht ihn schlauer bei neuen Aufgaben und viel kleiner (nur 182 Millionen Parameter), als die riesigen Modelle der Konkurrenz.

2. Der "Zweiköpfige Kopf" (Dual Decoder)

PoET-2 hat zwei verschiedene Denkweisen, die er je nach Aufgabe nutzt:

Der "Kreativ-Kopf" (Causal Decoder): Dieser Teil ist wie ein Dichter. Er schreibt Sätze Wort für Wort von vorne nach hinten. Er ist super darin, neue Proteine zu erfinden oder zu berechnen, wie wahrscheinlich eine bestimmte Kette von Bausteinen ist. Er kann auch Lücken füllen oder Teile hinzufügen (Einfügungen/Deletionen), was die alten Modelle nicht konnten.
Der "Analytiker-Kopf" (Bidirectional Decoder): Dieser Teil ist wie ein Detektiv. Er schaut sich den ganzen Satz gleichzeitig an (von vorne und hinten). Er versteht die tiefen Zusammenhänge und Beziehungen zwischen den Bausteinen. Das ist perfekt, um zu verstehen, warum ein Protein so funktioniert, wie es funktioniert.

3. Der "3D-Brillen-Träger" (Multimodalität)

Früher haben Computermodelle oft nur auf die Textliste der Bausteine geschaut. PoET-2 trägt aber eine 3D-Brille.

Er sieht nicht nur die Reihenfolge der Buchstaben, sondern auch die räumliche Form des Proteins (die Struktur).
Die Analogie: Stellen Sie sich vor, Sie versuchen, einen Schlüssel zu kopieren.
- Ein Modell ohne 3D-Brille sieht nur die Rillen auf dem Schlüssel (die Textliste).
- PoET-2 sieht auch die Form des Schlüsselkopfes und wie er in das Schloss passt.
Das hilft ihm besonders gut, vorherzusagen, ob ein Protein stabil bleibt oder zusammenbricht, wenn man Bausteine ändert.

Was kann PoET-2 besser als alle anderen?

Er versteht "Lücken" und "Hinzufügungen":
Wenn Sie ein Wort aus einem Satz streichen oder ein ganzes neues Wort dazwischenfügen, verwirrt das alte Modelle. PoET-2 versteht das sofort. Er kann sagen: "Wenn wir hier 3 Bausteine löschen, funktioniert das Protein immer noch." Das war bisher fast unmöglich.
Er ist ein Daten-Sparfuchs:
In der echten Welt haben Forscher oft nur sehr wenige Experimente (wenige Datenpunkte), um ein neues Medikament zu testen.
- Andere Modelle brauchen Tausende von Beispielen, um zu lernen.
- PoET-2 lernt wie ein Genie, das mit nur 10 Beispielen auskommt, um Muster zu erkennen. Er nutzt sein Wissen aus der großen Bibliothek (die Verwandten), um mit wenig Daten große Vorhersagen zu treffen.
Er ist schnell und günstig:
Weil er so effizient gebaut ist, braucht er weniger Rechenleistung. Man kann ihn auf einem normalen Server laufen lassen, nicht auf einem riesigen Supercomputer-Cluster.

Zusammenfassung in einem Satz

PoET-2 ist wie ein superintelligenter Architekt, der nicht nur auswendig lernt, sondern sich ständig Rat bei seinen erfahrenen Kollegen holt, eine 3D-Brille trägt, um die Form zu verstehen, und mit zwei verschiedenen Denkmodi (kreativ und analytisch) arbeitet, um neue, funktionierende Proteine zu entwerfen oder zu prüfen, ob Mutationen sicher sind.

Dieser Fortschritt ist ein großer Schritt für die Medizin (neue Medikamente, Verständnis von Krankheiten) und die Biotechnologie (neue Enzyme für saubere Energie oder Plastikabbau), weil er uns hilft, die Sprache des Lebens schneller und genauer zu lesen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Proteinsprachmodelle (PLMs) haben zwar Fortschritte bei der Vorhersage von Proteinstrukturen gemacht, zeigen jedoch Schwächen bei der Vorhersage des Effekts von Mutationen auf die Proteinfunktion, insbesondere in folgenden Bereichen:

Einschränkung auf Substitutionen: Die meisten aktuellen PLMs basieren auf Masked Language Modeling (MLM) und können nur einzelne Substitutionsmutationen vorhersagen. Sie versagen bei Insertionen und Deletionen (Indels) sowie bei komplexen, epistatischen Effekten mehrerer Mutationen.
Datenineffizienz: In überwachten Szenarien (Few-Shot-Learning) benötigen bestehende Modelle oft große Datenmengen, um generalisierbare Beziehungen zwischen Sequenz und Funktion zu lernen.
Skalierungsprobleme: Eine reine Vergrößerung der Modellparameter (Scaling) verbessert oft nur die Strukturvorhersage, nicht aber die Fitness-Modellierung, und führt zu hohen Rechenkosten.
Fehlende Multimodalität: Bisherige Ansätze integrieren entweder Strukturinformationen oder Retrieval-Augmentation (Kontextlernen), aber selten beides gleichzeitig effektiv.

2. Methodik: PoET-2 Architektur

PoET-2 ist ein multimodales, retrieval-augmentiertes Fundamentmodell für Proteine, das Sequenz- und Strukturdaten kombiniert, um evolutionäre Einschränkungen innerhalb von Proteinfamilien zu lernen.

Kernkomponenten:

Multimodalität: Das Modell verarbeitet sowohl Aminosäuresequenzen als auch Proteinstrukturen (Rückgrat-Atome N, Cα, C und pLDDT-Konfidenzwerte). Es kann auf homologe Sequenzen und/oder teilweise beobachtete Rückgratstrukturen konditionieren.
Retrieval-Augmentation (Kontextlernen): Anstatt ein riesiges Modell zu trainieren, das alle Informationen auswendig lernt, nutzt PoET-2 einen „Prompt"-Mechanismus. Der Benutzer gibt einen Kontext (eine Menge homologer Proteine) und optional eine Query (eine teilweise spezifizierte Sequenz oder Struktur) ein.
- Der Encoder verarbeitet diesen Kontext in einer hierarchischen, proteinordnungs-äquivarianten Weise (die Reihenfolge der Proteine im Prompt spielt keine Rolle).
- Dies ermöglicht In-Context-Learning, bei dem das Modell neue Muster aus den bereitgestellten Beispielen ableitet, ohne diese im Training gesehen zu haben.
Dual-Decoder-Architektur:
1. Autoregressiver Decoder (CLM): Trainiert mit einem kausalen Sprachmodellierungsziel. Erzeugt Sequenzen und berechnet Log-Likelihoods für Zero-Shot-Vorhersagen (z. B. Fitness-Scores für Varianten).
2. Bidirektionaler Decoder (MLM): Trainiert mit einem Masked Language Modeling Ziel. Erzeugt kontextsensitive Embeddings für überwachte Aufgaben und das Verständnis globaler Abhängigkeiten.
Strukturbasierte Attention-Bias: Innerhalb der Transformer-Schichten wird eine Attention-Bias eingeführt, die auf diskretisierten Cα-Cα-Abständen basiert. Dies integriert strukturelle Nähe direkt in die Aufmerksamkeitsmechanismen, anstatt nur lineare Sequenzpositionen zu nutzen.

Training:
Das Modell wurde auf 62 Millionen Sätzen homologer Sequenzen trainiert, die mit vorhergesagten Strukturen aus der AlphaFold-Datenbank (AFDB) verknüpft sind. Es nutzt eine Kombination aus CLM- und MLM-Verlustfunktionen sowie eine spezielle Behandlung von Maskierungen für Sequenzen und Strukturen.

3. Schlüsselbeiträge

Erste Lösung für Indels und höhere Mutationen: PoET-2 ist in der Lage, Insertionen, Deletionen und hochordentliche Mutationen (mehrere gleichzeitige Mutationen) in einem einzigen Modell zu bewerten, was für viele bestehende PLMs unmöglich ist.
Effizientes Retrieval-Augmentation: Durch die Nutzung von Kontext-Informationen (Homologen) erreicht das Modell State-of-the-Art-Ergebnisse mit nur 182 Millionen Parametern, was deutlich weniger ist als bei konkurrierenden Modellen (z. B. ESM-2 mit 650M oder ESM-3 mit 1,4B Parametern).
Zwei Betriebsmodi: Das Modell kann sowohl als generatives Modell (für das Design neuer Proteine) als auch als Repräsentationsmodell (für das Verständnis von Funktionen) genutzt werden.
Strukturelle Konditionierung: Es zeigt, wie strukturelle Informationen (z. B. inverse Faltung) genutzt werden können, um die Vorhersagegenauigkeit für Stabilitätsassays zu verbessern.

4. Ergebnisse

Die Evaluation erfolgte auf dem ProteinGym-Benchmark, der Deep Mutational Scanning (DMS) und klinische Datensätze umfasst.

Zero-Shot-Vorhersage (Mutationseffekte):
- Indels: PoET-2 übertrifft alle bestehenden Modelle signifikant (Verbesserung von $\Delta\rho \approx 0.05$ gegenüber dem vorherigen Bestwert PoET-1 und über 20% gegenüber dem besten Nicht-PoET-Modell).
- Höhere Mutationen: Bei Varianten mit 3 oder mehr Mutationen erzielt PoET-2 deutliche Verbesserungen gegenüber Ensemble-Methoden wie VenusREM.
- Klinische Varianten: Erreicht einen neuen State-of-the-Art bei der Unterscheidung zwischen pathogenen und benignen Mutationen (AUROC 0,952 für Indels).
- Substitutionen: Das Modell erreicht vergleichbare Ergebnisse wie VenusREM (einem Ensemble aus Struktur-PLM und PSSM), ist jedoch effizienter und flexibler. Ein Ensemble aus PoET-2 und VenusREM erzielt die absolut besten Ergebnisse.
Überwachtes Lernen (Few-Shot):
- In Szenarien mit begrenzten experimentellen Daten (z. B. nur 10–100 Trainingspunkte) übertrifft PoET-2 (kombiniert mit einem Gaussian Process) den vorherigen State-of-the-Art (Kermut) deutlich.
- Besonders im „Contiguous"-Split (wo Testdaten räumlich getrennt von Trainingsdaten liegen) zeigt PoET-2 eine überlegene Generalisierungsfähigkeit.
Struktur vs. Sequenz:
- Strukturbasierte Konditionierung verbessert Zero-Shot-Vorhersagen für Stabilität signifikant, hat aber bei klinischen Varianten oder überwachten Aufgaben nur geringen bis keinen zusätzlichen Nutzen, da die Embeddings bereits strukturelle Informationen implizit kodieren.

5. Bedeutung und Ausblick

PoET-2 demonstriert, dass die Kombination aus Retrieval-Augmentation (Lernen aus homologen Kontexten) und Multimodalität (Integration von Struktur) effektiver ist als das bloße Skalieren der Parameterzahl.

Praktische Relevanz: Das Modell ermöglicht präzise Vorhersagen für komplexe Mutationen (Indels), die für das Protein-Engineering und die Arzneimittelentwicklung entscheidend sind.
Ressourceneffizienz: Mit nur 182M Parametern und minimalen GPU-Anforderungen ist es für breite Anwendungen in der Forschung und Industrie zugänglich.
Paradigmenwechsel: Es zeigt, dass kontextbasiertes Lernen (In-Context-Learning) für biologische Aufgaben besser funktioniert als reine Memorierung in riesigen Modellen, und ebnet den Weg für effizientere, leistungsfähigere Protein-Foundation-Modelle.

Zusammenfassend stellt PoET-2 einen bedeutenden Fortschritt in der computergestützten Biologie dar, der die Lücke zwischen Sequenzanalyse, Strukturvorhersage und funktionaler Vorhersage schließt, insbesondere bei komplexen mutationalen Szenarien.

Understanding protein function with a multimodal retrieval-augmented foundation model

1. Der "Reiseführer" statt der "Enzyklopädie" (Retrieval-Augmentation)

2. Der "Zweiköpfige Kopf" (Dual Decoder)

3. Der "3D-Brillen-Träger" (Multimodalität)

Was kann PoET-2 besser als alle anderen?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: PoET-2 Architektur

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Time-Varying Environmental and Polygenic Predictors of Substance Use Initiation in Youth: A Survival and Causal Modeling Study in the ABCD Cohort

Predicting Activity Cliffs for Autonomous Medicinal Chemistry

Quantifying the Spatiotemporal Dynamics of Engineered Cardiac Microbundles

Platelet plug microstructure and flow modulate fibrin gelation dynamics: Insights from computational simulations

Analysis of non pharmaceutical interventions with SIR epidemic models: decreasing the infection peak vs. minimizing the epidemic size