Beyond additivity: zero-shot methods cannot predict impact of… — Begrijpelijke uitleg

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom computers nog niet kunnen voorspellen hoe mutaties samenwerken

Stel je voor dat een eiwit (een bouwsteen van ons lichaam) een ingewikkeld LEGO-model is. Als je één steen vervangt (een mutatie), kan het model misschien nog steeds werken, of misschien valt het een beetje uit elkaar. Computers zijn tegenwoordig heel goed in het voorspellen wat er gebeurt als je één steen vervangt. Ze kunnen zeggen: "Ah, als je die rode steen door een blauwe vervangt, wordt het model iets minder stabiel."

Maar wat als je meerdere stenen tegelijk vervangt? En wat als die stenen met elkaar 'praten'? Dat noemen wetenschappers epistase. Het is alsof de rode steen en de blauwe steen samen een verborgen mechanisme activeren dat je niet zag toen je ze apart bekeek. Soms werken ze samen om het model sterker te maken, soms zorgt de combinatie ervoor dat het hele model instort, zelfs als elke steen apart prima was.

Het probleem in één zin:
Deze studie laat zien dat de slimste computers (de 'zero-shot' modellen) die we vandaag hebben, niet kunnen voorspellen wat er gebeurt als je meerdere mutaties combineert. Ze falen volledig bij deze complexe samenwerking.

Hier is hoe de onderzoekers dit ontdekten, vertaald in alledaagse termen:

1. De test: Een gigantische LEGO-uitdaging

De onderzoekers keken naar enorme lijsten van experimenten (de "ProteinGym" database). Stel je voor dat ze duizenden LEGO-modellen hebben gebouwd waarbij ze op elke mogelijke plek één of meerdere stenen vervangen hebben. Ze hadden de echte resultaten van deze experimenten: welke modellen werkten nog en welke vielen uit elkaar?

Ze namen 95 verschillende computerprogramma's en vroegen hen: "Voorspel eens wat er gebeurt met deze modellen als je meerdere stenen vervangt."

2. Het resultaat: De computers zijn "blind" voor samenwerking

De resultaten waren verrassend en teleurstellend:

Bij één steen: De computers deden het prima. Ze konden goed voorspellen of een enkele verandering het model zou beschadigen of niet.
Bij meerdere stenen (met samenwerking): De computers raakten in de war. Ze konden de complexe interacties tussen de mutaties niet begrijpen. Hun voorspellingen waren niet beter dan een simpele gok.

De analogie van de "Rekenmachine":
Stel je voor dat je een rekenmachine hebt die goed is in optellen. Als je zegt: "Wat is 2 + 2?" (twee mutaties die simpelweg hun effecten optellen), dan zegt de machine: "4". Dat klopt.
Maar epistase is niet zomaar optellen. Het is meer als: "Wat is 2 + 2 als ze samen een explosie veroorzaken?" De rekenmachine zegt nog steeds "4", maar in werkelijkheid is er een ontploffing. De computers in deze studie denken dat alles simpel optelt, terwijl de biologie veel ingewikkelder is.

3. Waarom falen deze slimme AI's?

De onderzoekers geven een interessante reden. De slimste AI's (zoals de ESM-familie) zijn getraind op miljarden natuurlijke eiwitten. Ze hebben geleerd: "Welke stenen komen vaak samen voor in de natuur?"

Ze zijn goed in het herkennen van patronen die veilig zijn (mutaties die vaak samen voorkomen).
Maar ze hebben nooit gezien hoe het is om een "gevaarlijk" pad te bewandelen, waar mutaties samenwerken om iets heel anders te creëren dan de som der delen. Ze hebben geen ervaring met de "diepe valleien" in het landschap van het leven, waar je van de ene bergtop (een goed werkend eiwit) naar de andere moet, maar eerst door een dal moet zakken.

4. De verrassende les: Soms is een simpele tool beter dan een supercomputer

Het grappige is dat de onderzoekers een heel simpele, oude statistische methode (een "baseline") gebruikten. Deze simpele methode deed het soms net zo slecht als de super-AI's, maar in sommige gevallen deed de simpele methode het zelfs beter.
Dit betekent dat slim nadenken over de data (zoals kijken naar de structuur van het eiwit of de evolutie) belangrijker is dan het hebben van een ingewikkeld, diep neurale netwerk. Het is alsof je een ingewikkelde robot bouwt die alles kan, maar een simpele mens met een goede verstandelijke inschatting het probleem soms sneller oplost.

Conclusie: Wat betekent dit voor de toekomst?

De boodschap is helder:

We kunnen momenteel niet betrouwbaar ontwerpen van nieuwe eiwitten met meerdere mutaties. Als je een medicijn wilt maken dat een eiwit "op maat" maakt met 5 of 10 veranderingen, kunnen de computers je niet helpen.
We hebben meer experimenten nodig. Computers kunnen niet leren van niets; ze hebben meer voorbeelden nodig van hoe mutaties samenwerken.
We moeten nieuwe manieren vinden om computers te leren kijken naar interacties, niet alleen naar individuele veranderingen.

Kortom: De computers zijn slim, maar ze zijn nog te "eenzijdig" om de complexe dans van het leven volledig te begrijpen. Ze zien de individuele dansers, maar missen de choreografie van de groep.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het nauwkeurig voorspellen van de effecten van mutaties op de eigenschappen en functie van eiwitten is cruciaal voor zowel fundamenteel onderzoek als industriële toepassingen (zoals eiwitontwerp). Hoewel experimentele methoden (zoals MAVE - Multiplexed Assays of Variant Effects) nauwkeurig zijn, zijn ze duur en arbeidsintensief. Computergestuurde methoden bieden een schaalbaar alternatief.

De kernuitdaging in dit domein is epistasie: het fenomeen waarbij het effect van één mutatie wordt beïnvloed door de aanwezigheid van andere mutaties in hetzelfde eiwit. De meeste bestaande Variant Effect Prediction (VEP) methoden, inclusief geavanceerde machine-learning en deep-learning modellen, zijn getraind op of ontworpen voor enkelvoudige mutaties. Ze veronderstellen vaak een additief effect (de som van individuele mutatie-effecten). Echter, de fitness-landschappen van eiwitten zijn vaak "ruig" (met meerdere pieken), wat impliceert dat niet-lineaire interacties (epistasie) essentieel zijn. Bestaande zero-shot modellen (modellen die niet specifiek getraind zijn op experimentele data voor het specifieke eiwit) falen waarschijnlijk bij het voorspellen van deze complexe, niet-lineaire interacties.

Methodologie

De auteurs hebben een uitgebreide evaluatie uitgevoerd om de prestaties van zero-shot VEP-modellen te testen op hun vermogen om epistatische effecten te voorspellen.

Datasets:
- Er zijn data gebruikt uit de ProteinGym benchmark, specifiek 53 datasets afkomstig van MAVE-experimenten.
- Somermeyer-datasets: Drie GFP-eiwitten (A. macrodactyla, C. gregaria, P. plumata) met fluorescentiewaarden voor genotypen met meerdere mutaties (tot wel 44 mutaties per genotype).
- Tsuboyama-datasets: 50 verschillende eiwitten met metingen van thermostabiliteit (ΔG) voor enkel- en dubbelmutanten.
- Alleen datasets met beschikbare informatie over experimentele fouten werden geselecteerd om betrouwbare epistasie-metingen mogelijk te maken.
Definitie van Epistasie:
- Voor GFP-datasets werd epistasie gedefinieerd als het verschil tussen de waargenomen effecten van een meervoudig mutant en de verwachte som van de effecten van de individuele enkelmutanten.
- Voor stabiliteitsdatasets werd een thermodynamisch model gebruikt om de verwachte ΔG te reconstrueren onder de aanname van onafhankelijkheid.
- Genotypen werden als "epistatisch" geclassificeerd als het afwijkende effect statistisch significant was (gebaseerd op een Z-test met een drempelwaarde $N$ , waarbij $N=1$ voor GFP en $N=3$ voor stabiliteit werd gekozen).
Modellen:
- Er werden 95 zero-shot modellen geëvalueerd. Dit omvatte verschillende families van modellen, waaronder:
  - Taalmodellen voor eiwitten (Protein Language Models - PLMs) zoals de ESM-familie (ESM-1b, ESM-2).
  - Modellen die gebruikmaken van structurele informatie (bijv. ESM-IF1, ProSST, VenusREM).
  - Modellen die evolutionaire conservatie en meervoudige sequentie-uitlijningen (MSA) gebruiken (bijv. MSA-Transformer, GEMME, ESCOTT, PoET).
- Baselines: Om de prestaties te vergelijken, werden twee eenvoudige, supervised baselines getraind op enkelmutanten: een lineaire regressie (die per definitie geen epistasie kan modelleren) en een Multi-Layer Perceptron (MLP).
Evaluatiemetaiek:
- De prestaties werden gemeten met de Spearman-rangcorrelatie ( $\rho$ ) tussen de voorspelde waarden en de experimentele waarden.
- Er werd apart gekeken naar: (a) alle meervoudige mutaties en (b) specifiek de subset van epistatische genotypen.

Belangrijkste Resultaten

Falende Voorspellende Kracht voor Epistasie:
- Hoewel de zero-shot modellen redelijk goed presteren voor enkelmutaties en niet-epistatische combinaties (Spearman $\rho > 0.6$ voor sommige datasets), falen ze volledig bij het voorspellen van sterk epistatische combinaties.
- Voor epistatische genotypen zakt de correlatie vaak onder de 0.2, wat aangeeft dat er nauwelijks een lineair verband is tussen voorspelling en werkelijkheid.
Vergelijking met Baselines:
- In veel gevallen presteerden de complexe zero-shot modellen niet beter dan de simpele lineaire regressie-baselines.
- Voor de C. gregaria dataset (zeer epistatisch) faalden zelfs de ML-baselines volledig, maar de zero-shot modellen deden het niet beter. Dit suggereert dat de huidige modellen geen mechanisme hebben om de "fitness-valleien" in het sequentieruimte-landschap te navigeren.
Rol van Structuur en Evolutie:
- De modellen die het beste presteerden (zoals ESCOTT, PoET, ProSST, VenusREM) deelden gemeenschappelijke kenmerken: ze maakten gebruik van evolutionaire informatie (conservatie, MSA) en/of 3D-structuurinformatie.
- Interessant is dat ESCOTT (een puur statistisch model zonder deep learning) en GEMME tot de top behoorden. Dit suggereert dat slimme feature engineering (het correct verwerken van evolutionaire en structurele data) belangrijker is dan complexe modelarchitecturen voor het voorspellen van epistasie.
Fenotype-afhankelijkheid:
- Er was weinig overlap tussen de top-modellen voor fluorescentie (GFP) en stabiliteit. Dit wijst op fundamentele verschillen in hoe epistasie zich manifesteert voor verschillende eiwitfuncties.

Belangrijkste Bijdragen

Empirisch Bewijs van Limitaties: Het artikel levert het eerste grote, systematische bewijs dat state-of-the-art zero-shot modellen (inclusief geavanceerde PLMs) onbekwaam zijn om de impact van epistasie op eiwitfuncties te voorspellen.
Benchmarking: De studie biedt een rigoureuze benchmark op basis van 53 MAVE-datasets, waarbij strikt wordt gefocust op genotypen met bewezen epistatische interacties.
Inzicht in Modelarchitectuur: De bevinding dat statistische modellen met goede features (zoals ESCOTT) soms beter presteren dan complexe deep-learning modellen, daagt de huidige trend van "grotere modellen" uit en benadrukt het belang van biologisch onderbouwde features.
Identificatie van de "Black Box": De auteurs tonen aan dat PLMs waarschijnlijk een abstracte notie van "sequentiemechanische plausibiliteit" leren, maar dit niet kunnen generaliseren naar complexe, niet-lineaire interacties die nodig zijn om fitness-valleien te oversteken.

Significantie en Conclusie

De studie concludeert dat de huidige generatie zero-shot VEP-methoden onvoldoende is voor eiwitontwerp en evolutionaire studies die afhankelijk zijn van het navigeren door complexe sequentieruimtes met sterke epistasie.

Voor het veld: Het is cruciaal om te erkennen dat het simpelweg voorspellen van de waarschijnlijkheid van een sequentie (zoals PLMs doen) niet gelijkstaat aan het voorspellen van de functionele uitkomst bij meervoudige mutaties.
Toekomstige richtingen: Er is een dringende behoefte aan:
1. Meer experimentele data die specifiek gericht is op combinaties van mutaties (meer dan twee).
2. De ontwikkeling van nieuwe rekenmethoden die expliciet zijn ontworpen om niet-lineaire, epistatische interacties te modelleren, mogelijk door het integreren van structurele dynamica en evolutionaire context op een manier die verder gaat dan huidige taalmodellen.

Kortom, hoewel AI-methoden een doorbraak hebben betekend voor enkelmutaties, blijft het voorspellen van de "gehele" eiwitfunctie bij meervoudige mutaties een onopgelost probleem dat een verschuiving vereist in zowel dataverzameling als modelontwikkeling.

Beyond additivity: zero-shot methods cannot predict impact of epistasis on protein properties and function