Identification and classification of all Cytochrome P450 deposits in the Protein Data Bank

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Welt der Proteine ist eine riesige, chaotische Bibliothek. In dieser Bibliothek gibt es eine ganz besondere Abteilung für eine Familie von Enzymen, die Cytochrom P450 genannt wird. Diese Enzyme sind die „Wunderkinder" der Biologie: Sie helfen unserem Körper bei der Verdauung von Medikamenten, reinigen Giftstoffe und sind für die Biotechnologie extrem wertvoll.

Das Problem? Die Bibliothek ist extrem unordentlich.

Das Chaos in der Bibliothek

Stellen Sie sich vor, Sie suchen in dieser Bibliothek nach einem bestimmten Buch. Aber statt eines klaren Titels wie „Cytochrom P450, Familie X, Unterfamilie Y" finden Sie nur Zettel mit Namen wie „P450cam", „P450-BM3" oder „HLp". Manchmal steht der Name falsch geschrieben, manchmal fehlt er ganz, und oft benutzen verschiedene Autoren für das gleiche Enzym völlig unterschiedliche Spitznamen.

Es ist, als würde man in einem Supermarkt nach Äpfeln suchen, aber die Regale sind durcheinander geworfen. Auf manchen Äpfeln steht „Apfel", auf anderen „Roter Ball", wieder andere heißen einfach nur „Frucht" oder haben gar kein Etikett. Wenn Sie versuchen, alle Äpfel zu finden, indem Sie nach dem Wort „Apfel" suchen, verpassen Sie viele, weil sie falsch beschriftet sind.

Genau dieses Problem hatten die Forscher aus Polen, Südafrika und den USA. Sie wollten alle P450-Strukturen finden, die in der „Protein Data Bank" (PDB) – dem digitalen Archiv für Proteinstrukturen – gespeichert sind. Aber wegen des Namens-Chaos war das fast unmöglich.

Der neue Detektiv-Plan

Die Autoren haben sich einen cleveren Plan überlegt, der wie eine Kombination aus einem Schnüffelhund, einem Spiegel und einem Sortierroboter funktioniert:

Der Schnüffelhund (Suche nach Schlüsselwörtern): Zuerst haben sie einfach nach allen Einträgen gesucht, die das Wort „P450" oder „Häm" (den eisenhaltigen Teil des Enzyms) enthalten. Das hat schon viele gefunden, aber nicht alle.
Der Spiegel (Strukturvergleich): Da die Namen so unzuverlässig sind, haben sie sich die „Körperbau" der Proteine angesehen. P450-Enzyme sehen sich alle sehr ähnlich, auch wenn ihre DNA (der Bauplan) ganz unterschiedlich ist. Es ist wie bei Menschen: Ein Chinese und ein Norweger sehen sich im Gesicht vielleicht unterschiedlich an, aber beide haben zwei Arme, zwei Beine und einen Kopf. Die Forscher haben also alle Proteine im Archiv mit einem „Spiegel" (einem Referenz-P450) verglichen. Wenn die Struktur ähnlich genug war, wussten sie: „Aha, das ist auch ein P450!", auch wenn der Name im Archiv völlig falsch war.
Der Sortierroboter (P450atlas): Sobald sie die Kandidaten hatten, haben sie einen automatisierten Server namens „P450atlas" eingesetzt. Dieser Server ist wie ein hochintelligenter Bibliothekar, der jedes gefundene Enzym genau prüft und ihm den korrekten, offiziellen Namen (CYPid) gibt.

Was haben sie herausgefunden?

Das Ergebnis ist beeindruckend:

Sie haben 1.513 Einträge gefunden (das sind alle P450-Strukturen, die es aktuell im Archiv gibt).
Dahinter stecken 674 einzigartige Enzyme.
Sie haben fünf völlig neue Unterfamilien entdeckt, die vorher niemand kannte.
Sie haben festgestellt, dass viele Einträge im Archiv falsch beschriftet waren. Manche Enzyme trugen den Namen eines anderen Enzyms, und manche hatten gar keinen Namen.

Ein besonders lustiges Beispiel ist das Enzym CYP102A1. In der Bibliothek hieß es oft „P450-BM3". Das ist wie wenn Sie einen Menschen „Mann aus dem Haus BM3" nennen, statt seinen richtigen Namen. Die Forscher haben jetzt allen Enzymen ihre richtigen, offiziellen Ausweise (CYPid) gegeben.

Warum ist das wichtig?

Stellen Sie sich vor, Sie sind ein Arzt, der ein neues Medikament entwickelt. Sie müssen wissen, wie Ihr Medikament von den P450-Enzymen in der Leber verarbeitet wird. Wenn Sie in der Bibliothek nach den falschen Namen suchen, finden Sie die falschen Daten oder gar keine. Das könnte zu Fehlern in der Forschung oder sogar in der Medizin führen.

Mit dieser neuen, sauberen Liste können Forscher jetzt:

Schneller finden, was sie suchen.
Vergleiche anstellen, ohne sich in Namen zu verirren.
Neue Entdeckungen machen, weil sie wissen, wo sie suchen müssen.

Das Fazit

Die Autoren haben das Chaos in der P450-Bibliothek gesäubert. Sie haben einen automatisierten Prozess entwickelt, der sicherstellt, dass jedes neue P450-Enzym, das in Zukunft in die Bibliothek kommt, sofort den richtigen Namen bekommt und an den richtigen Platz sortiert wird.

Sie haben quasi eine neue, perfekte Karte für diese wichtige Enzym-Familie gezeichnet. Für die Wissenschaft bedeutet das: Keine Zeit mehr mit dem Suchen nach dem richtigen Namen verschwenden, sondern endlich die eigentliche Arbeit – die Entdeckung neuer Medikamente und Lösungen – tun.

Each language version is independently generated for its own context, not a direct translation.

Titel: Identifikation und Klassifizierung aller Cytochrom-P450-Eintragungen in der Protein Data Bank (PDB)

1. Problemstellung

Cytochrom-P450-Monooxygenasen (CYPs/P450s) sind eine extrem diverse Enzymsuperfamilie, die für Biotechnologie, Pharmakologie und Umweltwissenschaften von zentraler Bedeutung ist. Trotz der Verfügbarkeit von über 1.500 Strukturdaten in der Protein Data Bank (PDB) stellt die zuverlässige Identifizierung und der Vergleich dieser Einträge erhebliche Herausforderungen dar. Die Hauptprobleme sind:

Extreme Sequenzdivergenz: Die Sequenzidentität zwischen verschiedenen P450-Mitgliedern ist oft sehr gering (teilweise unter 20 %), was sequenzbasierte Suchmethoden (wie BLAST) unzureichend macht.
Inkonsistente Annotation: Viele PDB-Einträge verwenden keine standardisierte Nomenklatur (CYPid, z. B. CYP102A1). Stattdessen werden veraltete oder autordefinierte "Common Names" (z. B. P450cam, P450BM-3) verwendet, die oft inkonsistent formatiert, mehrdeutig oder fehlerhaft sind.
Fehlende Standardisierung: Oft fehlen Familien- oder Subfamilienangaben, oder es werden falsche Zuordnungen vorgenommen. Dies behindert automatisierte Suchen und die Zuverlässigkeit von Literatur-Mining.

2. Methodik

Die Autoren entwickelten einen strukturgeführten Entdeckungs- und Validierungs-Workflow, der folgende Schritte umfasst:

Datenbeschaffung: Alle PDB-Einträge (Stand Juli 2024) wurden in mmCIF-Format heruntergeladen. Für jeden Eintrag wurde die längste verfügbare Polymerkette extrahiert.
Zweistufige Identifizierung:
1. Keyword- und Klassifizierungssuche: Suche nach Einträgen mit den Begriffen "CYP" oder "P450" sowie Häm-Gruppen. Die Sequenzen wurden dem P450atlas-Server zur automatischen Subfamilien-Zuweisung vorgelegt. Dies ergab 1.358 Kandidaten.
2. Strukturbasierte Suche: Um Einträge zu finden, die keine Häm-Gruppen oder Keywords enthielten, wurden strukturelle Vergleiche durchgeführt.
  - Filterung der PDB auf Ketten mit mindestens 200 Aminosäuren und 5 $\alpha$ -Helices.
  - Auswahl von 3 repräsentativen P450-Strukturen (3EL3, 7WEX, 7TLO) mittels Complete-Link-Clustering.
  - Durchführung von strukturellen Alignments (TMalign) zwischen allen 182.844 gefilterten Ketten und den 3 Repräsentanten.
  - Ein TM-Score-Schwellenwert von 0,6 wurde als Kriterium für P450-Ähnlichkeit genutzt.
Klassifizierung und Validierung:
- Alle identifizierten Sequenzen wurden erneut dem P450atlas-Server unterzogen.
- Manuelle Überprüfung der Zuordnungen durch Experten, insbesondere bei Fällen, in denen die Sequenzidentität knapp unter dem Schwellenwert für Subfamilien (55 %) lag.
- Automatisierung des Workflows als Pipeline für zukünftige quartalsweise Updates.

3. Wichtige Beiträge

Erstellung eines kuratierten Registers: Die erste rigoros kuratierte, strukturverknüpfte Registrierung von P450-Enzymen in der PDB.
Entdeckung neuer Subfamilien: Identifizierung von fünf neuen CYP-Subfamilien (CYP165F, CYP152AX, CYP255D, CYP1251G, CYP107PW), die durch manuelle Expertenbewertung etabliert wurden, da die automatische Zuweisung aufgrund evolutionärer Distanz nicht ausreichte.
Integration in P450atlas: Erweiterung der P450atlas-Datenbank um Strukturinformationen und Verbesserung der Zuweisungspräzision.
Analyse der Nomenklatur: Systematische Erfassung und Bereinigung von "Common Names" und deren Zuordnung zu korrekten CYPids.

4. Ergebnisse

Datensatz: Insgesamt wurden 1.513 PDB-Einträge identifiziert, die 674 einzigartige Sequenzen repräsentieren.
Klassifizierung:
- 905 Einträge hatten bereits korrekte Familien- und Subfamilienangaben.
- 287 Einträge hatten die korrekte Familie, aber keine Subfamilie.
- 284 Einträge hatten keine Familienangabe, aber einen Alias-Namen.
- Nur in sehr wenigen Fällen (2 Einträge) war die Familienzuordnung der Autoren komplett falsch.
Strukturelle Ähnlichkeit vs. Sequenzdivergenz: Die Analyse zeigte, dass P450-Enzyme trotz oft sehr niedriger Sequenzidentität (teilweise <20 %) eine hohe strukturelle Ähnlichkeit aufweisen. Der TM-Score liegt selbst bei geringer Sequenzidentität meist über 0,7 (Mode bei 0,82), was die Effektivität des strukturbasierten Ansatzes unterstreicht.
Häufigste Familien: Die Daten sind nicht gleichmäßig verteilt. 62,39 % der Einträge gehören zu nur 8 Familien. Die größten sind CYP102 (hauptsächlich CYP102A1/P450-BM3) und CYP101 (hauptsächlich CYP101A1/P450-CAM).
Alternative Häm-Varianten: Es wurden zahlreiche Einträge mit alternativen Cofaktoren identifiziert (z. B. HEC, MI9, Metall-Substitutionen wie Mn, Co, Rh), die oft fälschlicherweise als Häm-Verlust interpretiert werden könnten, aber für die Erfassung spezifischer katalytischer Zustände genutzt werden.

5. Bedeutung und Ausblick

Diese Arbeit schließt eine kritische Lücke in der strukturellen Bioinformatik, indem sie eine verlässliche, standardisierte und automatisierte Methode zur Identifizierung aller P450-Strukturen bereitstellt.

Ressource: Die erstellte Tabelle ist als Supplement verfügbar und wird über die Website P450atlas.org bereitgestellt.
Nachhaltigkeit: Die entwickelte Pipeline ermöglicht regelmäßige, halb-automatische Updates des Registers, sobald neue Einträge in der PDB erscheinen.
Forschungsimpact: Durch die Vereinheitlichung der Nomenklatur (CYPid) mit strukturell validierten Daten wird die Zuverlässigkeit von Suchanfragen, Vergleichen und groß angelegten Analysen von P450-Enzymen erheblich verbessert. Dies ist essenziell für die Entwicklung neuer Medikamente, Biokatalysatoren und für das Verständnis des Stoffwechsels.

Identification and classification of all Cytochrome P450 deposits in the Protein Data Bank

Das Chaos in der Bibliothek

Der neue Detektiv-Plan

Was haben sie herausgefunden?

Warum ist das wichtig?

Das Fazit

Titel: Identifikation und Klassifizierung aller Cytochrom-P450-Eintragungen in der Protein Data Bank (PDB)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Functional-space alignment resolves the eco-evolutionary landscape of siderophore biosynthesis across bacteria

Exploring molecular signatures of senescence with markeR, an R toolkit for evaluating gene sets as phenotypic markers

Longevity Bench: Are SotA LLMs ready for aging research?

TFBindFormer: A Cross-Attention Transformer for Transcription Factor-DNA Binding Prediction

A little longer, a lot better: simulation-guided exploration of extended-length single-end barcoded reads for structural variant detection