CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Koch, der die perfekte Suppe (ein Protein) kochen will. Um das zu tun, hast du ein riesiges, lebendiges Kochbuch, das sich ständig ändert. Jeden Tag kommen neue Rezepte hinzu, und manchmal stellt sich heraus, dass alte Rezepte falsch waren oder gar nicht existieren. Diese Rezepte sind die Daten aus der UniProt-Datenbank, der größten Sammlung von Protein-Sequenzen der Welt.

Bisher haben KI-Modelle (die "Köche") versucht, diese Suppe zu kochen, indem sie das gesamte Buch auf einmal auswendig lernten. Das Problem? Das Buch wächst jeden Tag. Wenn du jedes Jahr das ganze Buch neu auswendig lernen müsstest, würdest du nie fertig werden und deine Küche (der Computer) würde vor Hitze zusammenbrechen.

Hier kommt die Idee des CoPeP-Benchmarks ins Spiel.

Die Grundidee: Lernen wie ein echter Profi, nicht wie ein Roboter

Statt das ganze Buch neu zu lernen, wollen wir dem KI-Koch beibringen, kontinuierlich zu lernen. Das bedeutet: Er nimmt jedes Jahr nur die neuen Rezepte hinzu und passt sein Wissen an, ohne das Alte komplett zu vergessen.

Das ist wie bei einem echten Koch:

Neue Rezepte: Jedes Jahr kommen neue, spannende Zutaten hinzu.
Alte Rezepte löschen: Manchmal merkt man, dass ein altes Rezept "Schrott" war (z. B. ein Fake-Rezept oder ein redundantes Duplikat). Ein guter Koch wirft das weg.
Die Zeit als Lehrer: Das Besondere an CoPeP ist, dass die KI nicht nur die Rezepte sieht, sondern auch beobachtet, wie lange ein Rezept schon im Buch steht.
- Analogie: Wenn ein Rezept seit 10 Jahren im Buch steht und nie gelöscht wurde, ist es wahrscheinlich ein sehr gutes, bewährtes Rezept. Wenn ein Rezept nur ein Jahr da war und dann sofort wieder rausgeworfen wurde, war es wahrscheinlich Mist. Die KI lernt also: "Vertraue dem, was bleibt!"

Was haben die Forscher getestet?

Die Forscher haben verschiedene Strategien ausprobiert, um zu sehen, wie man diesen KI-Koch am besten trainiert, ohne ihn zu überfordern:

Der naive Ansatz: Einfach jedes Jahr die neuen Rezepte dazulernen. (Gefahr: Der Koch vergisst die alten Rezepte oder verwechselt sie.)
Die "Erinnerungs-Methode" (Replay): Der Koch schaut sich ab und zu alte, bewährte Rezepte an, während er neue lernt. Besonders wichtig: Er schaut sich die Rezepte an, die immer noch im Buch sind.
Das "Vergessen-Lernen" (Unlearning): Der Koch lernt aktiv, bestimmte alte, schlechte Rezepte zu vergessen, damit sie ihn nicht verwirren.
Die "Dehnungs-Methoden" (Plasticity): Der Koch macht Gymnastik mit seinem Gehirn, damit er flexibel bleibt und nicht starr wird, wenn er zu viel lernt.

Die Ergebnisse: Was funktioniert am besten?

Die Ergebnisse waren überraschend und lehrreich:

Qualität vor Quantität: Es hat sich gezeigt, dass es besser ist, nur die "guten" Rezepte zu lernen (die, die über Jahre hinweg im Buch blieben), als alles auf einmal zu lernen. Die KI wurde dadurch sogar besser (bis zu 7% präziser), obwohl sie weniger Daten gesehen hat!
- Vergleich: Es ist besser, 100 bewährte Rezepte zu kennen, als 1000 Rezepte, von denen die Hälfte falsch ist.
Es kommt auf den Zweck an:
- Wenn du wissen willst, wie eine natürliche Suppe schmeckt (natürliche Proteinverteilung), hilft die Erinnerungs-Methode am besten. Sie lernt, was "normal" ist.
- Wenn du wissen willst, wie man eine Suppe verändert, um sie noch leckerer zu machen (z. B. bei der Medikamentenentwicklung), helfen Methoden, die das Gehirn flexibel halten ("Hase und Schildkröte" oder Gradient Ascent). Diese sind besser darin, neue, kreative Kombinationen zu verstehen.
Kein "Einheitsbrei": Keine einzelne Methode war in jeder Situation die Beste. Aber alle speziellen Lernmethoden waren besser als der naive Ansatz, bei dem man einfach nur weitermacht, ohne nachzudenken.

Warum ist das wichtig?

Stell dir vor, wir wollen neue Medikamente gegen Krankheiten entwickeln. Dafür müssen wir verstehen, wie Proteine funktionieren.

Ohne CoPeP müssten wir die KI jedes Jahr komplett neu trainieren – das wäre extrem teuer, langsam und ineffizient.
Mit CoPeP können wir die KI wie einen lebenden Organismus weiterbilden. Sie wird mit der Zeit klüger, vergisst das Wichtigste nicht und lernt aus den Fehlern der Vergangenheit (den gelöschten Daten).

Fazit:
CoPeP ist wie ein Trainingslager für KI-Köche, das ihnen beibringt, mit einem sich ständig verändernden Kochbuch umzugehen. Es zeigt uns, dass wir nicht einfach nur mehr Daten brauchen, sondern klügere Wege, um zu lernen, was bleibt und was geht. Das könnte den Weg für schnellere und günstigere Entdeckung neuer Medikamente ebnen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Protein-Sprachmodelle (pLMs) haben sich als leistungsstarke Werkzeuge für die Entdeckung von Zusammenhängen zwischen Sequenz, Struktur und Funktion von Proteinen etabliert und beschleunigen die Arzneimittelforschung. Ein zentrales Problem besteht jedoch in der dynamischen Natur der Trainingsdaten. Protein-Datenbanken wie UniProtKB werden kontinuierlich aktualisiert: Millionen neuer Sequenzen werden jährlich hinzugefügt, während andere (z. B. redundante Sequenzen oder Pseudogene) entfernt werden.

Das traditionelle Vorgehen, Modelle bei jeder neuen Datenveröffentlichung komplett neu zu trainieren, ist rechnerisch prohibitiv und ineffizient. Gleichzeitig bietet die zeitliche Entwicklung dieser Datenbanken eine einzigartige Chance: Sequenzen, die über Jahre hinweg in der Datenbank verbleiben, sind starke Indikatoren für valide Protein-codierende Sequenzen, während entfernte Sequenzen als implizite Beispiele für nicht-Protein-Sequenzen dienen können. Bisher fehlten jedoch realistische, großskalige Benchmarks, um Continual Learning (CL)-Methoden für diese Art von zeitlich evolvierenden Pretraining-Daten zu evaluieren.

2. Methodik: Der CoPeP-Benchmark

Die Autoren stellen CoPeP (Continual Pretraining of Protein Language Models) vor, einen Benchmark, der die kontinuierliche Aktualisierung von pLMs an realen biologischen Daten simuliert.

Datensatz: Der Benchmark basiert auf 10 aufeinanderfolgenden jährlichen Releases des UniRef100-Datensatzes (von 2015 bis 2024), abgeleitet von UniProtKB. Dies umfasst insgesamt 580 Millionen einzigartige Einträge.
Aufgabenstellung: Jede jährliche Release wird als separater Task ( $D_i$ ) betrachtet. Das Ziel ist es, ein Modell sequenziell auf diesen Tasks zu trainieren, wobei es lernen muss, sich an neue Daten anzupassen (Plastizität), ohne das Wissen über frühere Jahre zu verlieren (Stabilität).
Meta-Informationen: Ein entscheidendes Merkmal von CoPeP ist der Zugriff auf historische Daten. Das Modell kann die Multiplizität einer Sequenz nutzen (d. h., wie viele Jahre eine Sequenz in UniRef100 persistiert hat). Dies dient als Signal für die Zuverlässigkeit der Sequenz.
Bewertungsmetriken: Die Leistung wird auf drei Ebenen gemessen:
1. UniProt Validation Set: Hochwertige, experimentell verifizierte Proteine zur Messung der Anpassung an die natürliche Proteinverteilung (Perplexity, Sequence Recovery).
2. ProteinGym: Bewertung der Vorhersage von Mutationseffekten (Fitness) mittels Spearman-Korrelation.
3. PEER & DGEB: Multi-Task-Benchmarks für Protein-Funktion, Lokalisierung und Struktur.
Basis-Modell: Als Basis dient das bidirektionale Modell AMPLIFY-120M. Es wird mit einem Warmup-Stable-Decay (WSD) Learning-Rate-Schedule trainiert, um Probleme beim „Re-Warming" beim Wechsel zwischen Tasks zu vermeiden.

3. Evaluierte Methoden

Das Paper vergleicht verschiedene State-of-the-Art-Methoden aus dem Bereich des Continual Learning, die teilweise erstmals in diesem Maßstab angewendet werden:

Naive Baseline: Sequential Training ohne Regularisierung.
Temporal Replay: Eine Erweiterung des Experience Replay, bei dem historische Daten mit einer Wahrscheinlichkeit proportional zu ihrer Persistenz (Multiplizität) im Replay-Puffer gewichtet werden.
Plastizitätserhaltende Methoden:
- Shrink and Perturb: Periodisches Skalieren der Gewichte und Hinzufügen von Rauschen.
- Hare and Tortoise: Verwendung von schnellen und langsamen Gewichten (Exponential Moving Average), wobei das schnelle Netz gelegentlich zurückgesetzt wird.
Unlearning-Methoden (Vergessen):
- Gradient Ascent: Maximierung des Verlusts auf dem „Vergessens-Set" (Sequenzen, die im aktuellen Jahr entfernt wurden), um deren Einfluss zu löschen.
- Random Labels: Ersetzen der Ground-Truth-Tags für das Vergessens-Set durch zufällige Tokens, um Korrelationen zu korruptieren.

4. Wichtige Ergebnisse

Die Experimente zeigen, dass spezialisierte Continual-Learning-Methoden naive Ansätze und oft sogar das gemeinsame Training auf allen Daten (Joint Training) übertreffen.

Überlegenheit gegenüber Joint Training: Überraschenderweise schneiden viele CL-Methoden besser ab als ein Modell, das auf allen Daten von 2015–2024 gleichzeitig trainiert wurde. Dies liegt daran, dass das Joint-Modell auch Sequenzen lernt, die später als fehlerhaft (z. B. Pseudogene) aus der Datenbank entfernt wurden. CL-Methoden, die diese entfernten Sequenzen „vergessen", lernen eine sauberere Verteilung valider Proteine.
Temporal Replay: Diese Methode erzielt die besten Ergebnisse auf dem UniProt Validation Set (bis zu 7% Verbesserung der Perplexity gegenüber dem Joint-Training). Der Erfolg wird darauf zurückgeführt, dass persistente Sequenzen eine höhere Qualität aufweisen.
Spezifische Stärken je nach Aufgabe:
- Auf ProteinGym (Fitness-Vorhersage) performen Gradient Ascent und Hare and Tortoise am besten.
- Auf PEER und DGEB (Transfer-Learning-Aufgaben) führen Shrink and Perturb bzw. Random Labels.
Meta-Informationen nutzen: Ein Experiment zeigte, dass das Training nur auf dem Schnittmenge von Sequenzen, die über mehrere Jahre persistieren (z. B. 2022 und 2024), zu einer besseren Perplexity führt als das Training auf dem gesamten Datensatz eines einzelnen Jahres, obwohl die Datenmenge um 36% reduziert ist.

5. Hauptbeiträge

CoPeP-Benchmark: Einführung eines realistischen, großskaligen Benchmarks für Continual Pretraining auf biologischen Sequenzdaten, der die zeitliche Evolution von UniProt nutzt.
Skalenevaluierung: Evaluation von 7 fortschrittlichen CL-Methoden auf einem Modell mit 120M Parametern und einem Datensatz von hunderten Millionen Sequenzen – ein Maßstab, der in der CL-Forschung bisher selten erreicht wurde.
Nachweis des Nutzens von Zeitmetadaten: Demonstration, dass die Nutzung von Persistenz-Informationen (wie lange eine Sequenz in der Datenbank bleibt) die Modellleistung über das Niveau von standardmäßigem i.i.d. Training (unabhängig und identisch verteilt) hinaus steigern kann.

6. Bedeutung und Ausblick

CoPeP zeigt, dass Continual Learning nicht nur notwendig ist, um mit dem Wachstum von Daten Schritt zu halten, sondern auch eine strategische Möglichkeit bietet, die Datenqualität durch die Ausnutzung zeitlicher Metadaten zu verbessern. Die Ergebnisse deuten darauf hin, dass es keine „One-Size-Fits-All"-Lösung gibt; verschiedene CL-Strategien sind für unterschiedliche downstream-Aufgaben (z. B. Design vs. Klassifizierung) besser geeignet.

Dieser Benchmark ebnet den Weg für nachhaltigere und effizientere Ansätze in der Proteinmodellierung und beschleunigt die Forschung im Bereich der computergestützten Arzneimittelforschung, indem er teure Neutrainings vermeidet und gleichzeitig State-of-the-Art-Leistung bewahrt.

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Die Grundidee: Lernen wie ein echter Profi, nicht wie ein Roboter

Was haben die Forscher getestet?

Die Ergebnisse: Was funktioniert am besten?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der CoPeP-Benchmark

3. Evaluierte Methoden

4. Wichtige Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Ausblick

Mehr davon

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression