CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het bouwen van een medicijn tegen een ziekte net zo moeilijk is als het vinden van de perfecte sleutel voor een heel oud, complex slot. De sleutels zijn eiwitten, de bouwstenen van het leven. Om deze sleutels te begrijpen, gebruiken wetenschappers kunstmatige intelligentie (AI) die is getraind op de "taal" van deze eiwitten. Dit noemen ze Proteïne-taalmodellen.

Het probleem? De wereld verandert. Elke dag ontdekken biologen nieuwe eiwitten en passen ze hun kennis aan. De databases waar deze AI-modellen op trainen, groeien en veranderen continu. Als je een AI-model vandaag traint, is het morgen misschien al verouderd.

De auteurs van dit paper (CoPeP) hebben een slimme oplossing bedacht en getest. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Verouderde Kaart"

Stel je voor dat je een GPS-app gebruikt om door een stad te rijden. Als je de app nooit updatet, laat hij je door straten rijden die al jaren geleden zijn afgebroken, of mist hij de nieuwe snelwegen die gisteren zijn aangelegd.

Voor de AI-modellen is dit precies hetzelfde. Ze trainen op enorme databases met eiwitten. Als je ze elk jaar opnieuw vanaf nul traint met alle nieuwe data, kost dat een onbetaalbare hoeveelheid tijd en energie (en rekenkracht). Als je ze niet update, worden ze dom en onnauwkeurig.

2. De Oplossing: CoPeP (De "Levende Bibliotheek")

De onderzoekers hebben een nieuw test-systeem bedacht, genaamd CoPeP. Ze hebben gekeken naar de grootste bibliotheek van eiwitten ter wereld (UniProt) en gekeken hoe deze bibliotheek zich over 10 jaar heeft ontwikkeld (van 2015 tot 2024).

Ze hebben een simpele, maar krachtige observatie gedaan:

De "Gouden Eiwitten": Sommige eiwitten staan al jaren in de bibliotheek. Ze blijven er. Dit betekent waarschijnlijk dat ze echt belangrijk en betrouwbaar zijn.
De "Verdwijnende Eiwitten": Andere eiwitten komen erin, maar worden na een jaar weer verwijderd. Misschien waren ze foutief, dubbel of onbruikbaar.

CoPeP gebruikt deze tijdlijn als een superkracht. In plaats van alleen te kijken naar wat er in de database staat, kijken ze ook naar hoe lang het er al staat.

3. De Experimenten: Verschillende Manieren om te Leren

De onderzoekers hebben verschillende methoden getest om de AI te laten "leren" terwijl de database groeit. Ze hebben ze vergeleken met een simpele, domme methode (gewoon doorgaan met leren zonder te onthouden).

Hier zijn de methoden, vertaald naar analogieën:

De "Replay" (Herhaling) Methode:
- Analogie: Een student die voor een examen studeert. Hij leert niet alleen de nieuwe hoofdstukken, maar hij pakt ook zijn oude aantekeningen erbij. Maar hij pakt niet alle oude aantekeningen willekeurig, hij pakt vooral die pagina's die hij al vaker heeft gelezen (de "gouden eiwitten").
- Resultaat: Dit werkt fantastisch om de basis van de taal van eiwitten perfect te begrijpen. Het model wordt heel goed in het voorspellen van wat een normaal eiwit is.
De "Hare en Schildpad" Methode:
- Analogie: Twee studenten die samen werken. De "Hare" is snel en leert nieuwe dingen, maar vergeet snel. De "Schildpad" is langzaam en onthoudt alles. Ze wisselen elkaar af zodat de Hare niet te snel vergeet, maar de Schildpad niet te traag wordt.
- Resultaat: Dit werkt heel goed voor het voorspellen van mutaties (veranderingen in eiwitten), alsof je een arts bent die voorspelt wat er gebeurt als een eiwit een kleine foutje krijgt.
De "Vergeten" Methode (Unlearning):
- Analogie: Een student die probeert een verkeerde formule uit zijn hoofd te wissen. Hij leert bewust de verkeerde antwoorden om te voorkomen dat hij ze per ongeluk onthoudt.
- Resultaat: Dit helpt om het model "schoner" te houden en niet vast te lopen in oude, foutieve patronen.

4. De Grote Doorbraak: Tijd is Goud

Het meest opvallende resultaat is dit: Het gebruik van de geschiedenis (tijd) maakt het model beter.

Als je kijkt naar de "Replay"-methode, zie je dat het model beter presteert dan zelfs een model dat alle data van de afgelopen 10 jaar tegelijk heeft geleerd. Waarom? Omdat het model door de tijd heen leert welke eiwitten "echt" zijn (die blijven) en welke "ruis" zijn (die verdwijnen). Het filtert de ruis eruit door te kijken naar de tijdlijn.

Samenvatting voor de Leek

Stel je voor dat je een kok bent die nieuwe recepten moet leren.

Oude manier: Je leert elk jaar een nieuw kookboek uit je hoofd, maar vergeet het vorige. Of je probeert alle boeken van de laatste 10 jaar in één keer te leren (te veel werk!).
CoPeP manier: Je kijkt naar welke recepten al 10 jaar in elke kookboekenreeks staan. Die zijn waarschijnlijk de beste. Je leert die goed, en je leert ook hoe je nieuwe recepten toevoegt zonder de oude te vergeten.

Conclusie:
Dit paper laat zien dat we AI-modellen voor medicijnontwikkeling niet hoeven te "resetten" als er nieuwe data komt. Door slimme technieken te gebruiken die kijken naar de geschiedenis van de data, kunnen we modellen houden die slimmer, sneller en goedkoper zijn. Dit is een enorme stap voorwaarts voor het vinden van nieuwe medicijnen, omdat we de AI kunnen laten meegroeien met de wetenschap zonder dat we elke keer alles opnieuw hoeven te bouwen.

Each language version is independently generated for its own context, not a direct translation.

Titel

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

1. Het Probleem

Proteïne-taalmodellen (pLM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt in het onthullen van relaties tussen sequentie, structuur en functie van eiwitten, wat essentieel is voor de geneesmiddelenontwikkeling. Deze modellen worden echter getraind op enorme, dynamische databases zoals UniProtKB, die jaarlijks miljoenen nieuwe eiwitsequenties toevoegen en er evenzo veel verwijderen (bijvoorbeeld door curatie van pseudogenes of redundante sequenties).

De huidige uitdagingen zijn:

Inefficiëntie: Het volledig hertrainen van modellen op elke nieuwe data-release is computationeel onhaalbaar.
Katastrofale Vergetelheid & Plasticiteitsverlies: Traditionele "naïeve" continue training (sequentiële fine-tuning) leidt vaak tot het vergeten van eerdere kennis of het onvermogen om zich aan te passen aan nieuwe data.
Gebrek aan Realistische Benchmarks: Bestaande benchmarks voor continue learning (zoals CIFAR-10 of MNIST) zijn te klein en synthetisch om de schaal en complexiteit van echte biologische data te reflecteren. Er is geen benchmark die de temporele evolutie van pre-training-distributies zelf bestudeert.

2. Methodologie: De CoPeP Benchmark

De auteurs introduceren CoPeP (Continual Pretraining of Protein Language Models), een realistische, schaalbare benchmark die de continue evolutie van de UniProt Knowledgebase nabootst.

Dataset: De benchmark bestaat uit een sequentie van 10 jaarlijkse releases van UniRef100 (een niet-redundante clustering van UniProtKB) van 2015 tot 2024. Dit vertegenwoordigt 10 opeenvolgende taken ( $D_1$ tot $D_{10}$ ).
Temporele Meta-informatie: Een uniek aspect van CoPeP is het gebruik van de geschiedenis van de data. De auteurs benutten het feit dat sequenties die over meerdere jaren in de database blijven, waarschijnlijk functionele eiwitten zijn, terwijl sequenties die worden verwijderd, vaak van mindere kwaliteit of niet-functioneel zijn.
Evalueringsopdrachten: De prestaties worden gemeten op drie soorten taken:
1. UniProt Validatie Set: Een set van 10.000 hoogwaardige, experimenteel geverifieerde eiwitten om de fitting op de natuurlijke distributie te meten (Perplexity en Sequence Recovery).
2. ProteinGym: Een benchmark voor het voorspellen van de effecten van mutaties op de fitness van eiwitten (Spearman correlatie).
3. Multi-task Benchmarks (PEER & DGEB): Taken gericht op functie, subcellulaire lokalisatie en structurele eigenschappen.
Basismodel: Er wordt gebruik gemaakt van het AMPLIFY 120M model (een bidirectioneel transformer-model).
Onderzochte Methodes: De auteurs evalueren 7 state-of-the-art methoden voor continue learning, waaronder:
- Naïeve Baseline: Sequentiële training zonder interventie.
- Replay: "Temporal Replay" waarbij historische data wordt herhaald met een kans evenredig aan de "multipliciteit" (hoe vaak een sequentie voorkwam in vorige jaren).
- Plasticiteit behoudend: "Shrink and Perturb" (gewichten verkleinen en ruis toevoegen) en "Hare and Tortoise" (snelle en trage gewichten).
- Unlearning (Vergeten): "Gradient Ascent" en "Random Labeling" om kennis over verwijderde sequenties actief te wissen.

3. Belangrijkste Bijdragen

Introductie van CoPeP: Een nieuw, groot-schaal benchmark voor continue pre-training op biologische sequenties, gebaseerd op de temporele evolutie van UniProt.
Schaalbare Evaluatie: De eerste toepassing van diverse continue learning-methoden op modellen en datasets van deze omvang (honderden miljoenen sequenties), wat eerder onmogelijk was met bestaande benchmarks.
Validering van Temporele Meta-informatie: Het aantonen dat het gebruik van de geschiedenis van data (welke sequenties blijven en welke verdwijnen) leidt tot betere prestaties dan standaard i.i.d. training op individuele jaren.

4. Resultaten

De experimenten leveren enkele verrassende en belangrijke inzichten op:

Prestatieverbetering: Alle onderzochte continue learning-methoden presteerden beter dan de naïeve sequentiële training en vaak ook beter dan een model dat op alle data van 2015-2024 gezamenlijk was getraind (Joint Training).
Rol van Temporele Replay: De "Temporal Replay" methode behaalde de beste resultaten op de UniProt Validatie Set (Perplexity verbetering tot 7% ten opzichte van het gezamenlijke model). Dit komt doordat het model leert op sequenties die consistent in de database blijven, wat een signaal is van hoge kwaliteit.
Specifieke Methodes per Taak:
- Op ProteinGym (mutatie-effecten) presteerden "Gradient Ascent" en "Hare and Tortoise" het best. Dit suggereert dat methoden die plasticiteit behouden of specifieke kennis wissen, beter zijn voor het voorspellen van lokale veranderingen in de fitness-landschap.
- Op PEER en DGEB (multi-task begrip) presteerden "Shrink and Perturb" en "Random Labels" het best.
Data-filtering: Experimenten tonen aan dat het trainen op de intersectie van sequenties die over twee jaren blijven (bijv. 2022 en 2024), zelfs met 36% minder data, leidt tot betere perplexity dan het trainen op de volledige dataset van één jaar. Dit bevestigt dat temporele persistentie een krachtig signaal is voor datakwaliteit.

5. Betekenis en Conclusie

Het paper demonstreert dat continue learning niet alleen noodzakelijk is om schaalbare modellen bij te houden met groeiende biologische databases, maar dat het ook een kans biedt om temporele meta-informatie te benutten voor betere modellering.

Geneesmiddelenontdekking: Door modellen efficiënter en duurzamer bij te werken zonder volledige hertraining, wordt de cyclus voor therapeutische ontdekking versneld.
Paradigmaverschuiving: De resultaten tonen aan dat er geen "one-size-fits-all" oplossing is; de beste methode hangt af van de downstream-taak (bijv. distributiefitting vs. mutatievoorspelling).
Toekomst: CoPeP biedt een fundament voor toekomstig onderzoek naar het combineren van deze orthogonale methoden (replay, plasticiteit, unlearning) om nog robuustere protein taalmodellen te ontwikkelen.

Kortom, CoPeP bewijst dat continue pre-training, ondersteund door de geschiedenis van biologische databases, een superieure strategie is voor het onderhouden van state-of-the-art prestaties in de computationele biologie.

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

1. Het Probleem: De "Verouderde Kaart"

2. De Oplossing: CoPeP (De "Levende Bibliotheek")

3. De Experimenten: Verschillende Manieren om te Leren

4. De Grote Doorbraak: Tijd is Goud

Samenvatting voor de Leek

Titel

1. Het Probleem

2. Methodologie: De CoPeP Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression