scprocess: a pipeline for processing, integrating and visualising atlas-scale single cell data
Het artikel introduceert scprocess, een Snakemake-pipeline die is ontworpen om de verwerking, integratie en visualisatie van atlasschaal single-cell RNA-sequencingdata (specifiek van 10x Genomics) te stroomlijnen en te automatiseren, waardoor reproduceerbaarheid en schaalbaarheid voor grote datasets worden gewaarborgd.
Oorspronkelijke auteurs:Koderman, M., Pilarski, J., Bianco, E., Gonzalez, D., Robinson, M. D., Macnair, W.
Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer
Each language version is independently generated for its own context, not a direct translation.
scprocess: De Super-Organisator voor je Cellen-Datamijn
Stel je voor dat je een gigantische bibliotheek binnenstapt. Maar in plaats van boeken, zitten er hier miljoenen losse bladzijden in, elk met een verhaal over één enkele cel in je lichaam. Dit is wat wetenschappers doen met single-cell sequencing: ze kijken naar de 'taal' (RNA) van miljoenen individuele cellen om te begrijpen hoe ons lichaam werkt.
Het probleem? Er zijn zoveel bladzijden (data) dat het chaotisch wordt. Het is als proberen een hele bibliotheek te sorteren met een lepel terwijl je op een roterende schijf staat. Het kost enorm veel tijd, geheugen en het is heel makkelijk om fouten te maken of te vergeten welke stap je precies hebt gedaan.
Hier komt scprocess om de hoek kijken. Het is een slimme, geautomatiseerde robot die deze hele bibliotheek voor je ordent.
Hoe werkt het? (De Analogie van de Grote Keuken)
Stel je scprocess voor als een super-keuken waar een team van robots (de pipeline) werkt om een gigantisch diner voor te bereiden.
De Ingrediënten (De Ruwe Data): De keuken krijgt zakken met rauwe ingrediënten binnen (de sequentiebestanden van de 10x Genomics technologie). Normaal gesproken zou een kok (de onderzoeker) dit handmatig moeten wassen, snijden en wegen. scprocess doet dit allemaal automatisch.
Het Wassen en Schillen (Aligneren en Kwantificeren): De robots gebruiken een snelle, slimme methode (genaamd alevin-fry) om de ingrediënten te sorteren. In plaats van elke groente één voor één te snijden met een mes (wat traag is), gebruiken ze een industriële snijmachine die honderden tegelijk doet. Dit bespaart enorm veel tijd en energie.
Het Verwijderen van Rotte Delen (Kwaliteitscontrole): Niet alle ingrediënten zijn goed. Sommige zijn rot (dode cellen) of bevatten vuil (omgevings-RNA).
De Selectie: De robots kijken naar de 'gewicht' van de ingrediënten. Als een cel te weinig 'vlees' heeft, wordt hij weggegooid.
De Dubbelgangers: Soms zitten twee cellen in één zakje (dubbelgangers). De robots gebruiken een slimme scanner (scDblFinder) om deze te vinden en te markeren, zodat ze niet de resultaten vervalsen.
Speciale Regels: Bij kern-onderzoek (snRNA-seq) kijken ze extra goed of er per ongeluk cytoplasma in de kern is gekomen, net zoals je zou controleren of er geen aarde in je aardappels zit.
Het Groeperen (Integratie en Clustering): Nu hebben we een berg schone, gesorteerde ingrediënten. De robots moeten ze nu in groepjes verdelen: "Alles wat op een tomaat lijkt, gaat hierheen; alles wat op een komkommer lijkt, daarheen."
Ze gebruiken een GPS-systeem (UMAP en PCA) om te zien welke cellen op elkaar lijken, zelfs als ze uit verschillende proefpersonen komen.
Ze zorgen ervoor dat de 'reistassen' (batch-effecten) van de verschillende proefpersonen niet verwarren met de echte verschillen in de cellen.
De Turbo-Modus: Voor de grootste banen gebruiken ze een elektrische snijmachine (GPU-versie via RAPIDS) die 100 keer sneller is dan een handmatige mes, zodat ze niet dagenlang hoeven te wachten.
Het Labelen (Cellen Identificeren): Nu weten we welke groepjes er zijn, maar wat zijn het precies? Is dat een levercel of een hersencel?
In plaats van te raden, gebruiken de robots een slimme database (CellTypist) die is getraind op duizenden andere recepten. Ze vergelijken de 'smaken' van je cellen met die database en plakken er automatisch een label op.
Ze kijken ook naar de 'recepten' (genen) die in een groepje veel voorkomen om te bepalen wat de groep doet.
De Sub-Keuken (Subclustering): Soms is een groep te groot. Stel je hebt een hele bak 'bloedcellen'. De robots kunnen dan een sub-keuken openen om alleen die bloedcellen nog eens heel nauwkeurig te bekijken, zodat je bijvoorbeeld ziet of er een specifieke soort witte bloedcel is die net wakker wordt.
Waarom is dit zo speciaal?
Reproduceerbaarheid: Het is alsof de robot elke stap opschrijft in een logboek. Als je over een maand terugkomt, kun je precies hetzelfde diner maken met exact dezelfde stappen. Geen giswerk meer.
Schaalbaarheid: Of je nu 10 of 1000 proefpersonen hebt, de keuken groeit mee. Het is gebouwd om op krachtige computers (HPC) te draaien, zodat het niet vastloopt.
Geen 'Black Box': De robots maken rapporten (HTML-bestanden) na elke stap. Je kunt zien hoe de ingrediënten eruit zagen voordat je ze waste, zodat je weet of alles goed ging.
Kortom: scprocess is de onmisbare assistent die de chaos van miljoenen cellen omzet in een helder, georganiseerd verhaal, zodat wetenschappers zich kunnen focussen op de ontdekkingen in plaats van op het sorteren van de data.
Each language version is independently generated for its own context, not a direct translation.
Probleemstelling
De overgang naar "atlas-schaal" single-cell onderzoek heeft geleid tot datasets met miljoenen cellen en honderden monsters. Dit creëert aanzienlijke uitdagingen op het gebied van:
Data-management en rekenkracht: Het verwerken van dergelijke grote datasets vereist High-Performance Computing (HPC) en efficiënt geheugengebruik.
Reproduceerbaarheid: De complexe aard van single-cell RNA-sequencing (scRNA-seq) analyses vereist tientallen beslispunten en tools. Het handmatig bijhouden van elke tool en parameter is moeilijk, wat de reproduceerbaarheid van resultaten in gevaar brengt.
Fragmentatie: Hoewel er veel methoden zijn voor individuele stappen, ontbreekt vaak een geïntegreerde, gestandaardiseerde workflow die alle stappen in één coherent raamwerk samenvoegt.
Methodologie
scprocess is een Snakemake-pipeline die is ontworpen om de verwerking van scRNA-seq en single-nucleus RNA-sequencing (snRNA-seq) data te stroomlijnen en te automatiseren. De pipeline is specifiek geoptimaliseerd voor data gegenereerd met 10x Genomics-technologie en is modulair opgebouwd om flexibiliteit te bieden.
De belangrijkste technische componenten en keuzes zijn:
Alignering en Kwantificatie:
In plaats van de resource-intensieve Cell Ranger (STAR-gebaseerd), gebruikt scprocess simpleaf (een interface voor het alevin-fry ecosysteem).
Alevin-fry is een pseudo-aligner die aanzienlijk sneller is en minder geheugen vereist. Het genereert tellingsmatrijzen met gesplitste (spliced) en ongesplitste (unspliced) reads, essentieel voor RNA-velocity.
De pipeline bevat automatische detectie van 10x Genomics chemie, een functie die in simpleaf ontbreekt.
Celbepaling (Cell Calling) en Verwijdering van Ambient RNA:
De pipeline biedt twee opties voor het onderscheiden van echte cellen van lege druppels en het corrigeren van omgevings-RNA:
CellBender: Een GPU-versneld model dat zeer nauwkeurig is maar rekenkrachtintensief.
DecontX: Een CPU-gebaseerde, snellere alternatief. Voor deze optie combineert scprocess eerst een barcode-rank benadering (via DropletUtils) voor celbepaling en voert dan DecontX uit met een geschat profiel van ambient RNA (in plaats van het standaard cluster-gebaseerde model) voor betere nauwkeurigheid.
Kwaliteitscontrole (QC):
Filteren op basis van library size, aantal gedetecteerde features, mitochondriale read-proportie en het percentage gesplitste reads (belangrijk voor snRNA-seq om cytoplasmatische contaminatie te detecteren).
In plaats van automatische thresholds (zoals MAD), vertrouwt de pipeline op door de gebruiker gespecificeerde thresholds om bias te voorkomen, gebaseerd op inspectie van de data-verdeling.
Doublet-detectie: Implementatie van scDblFinder, dat in benchmarks superieur bleek aan andere tools.
Selectie van Variabele Features (HVG):
Om geheugenproblemen bij het samenvoegen van grote datasets te omzeilen, verwerkt scprocess de data in chunks (stukken) van genen.
Het gebruikt een aangepaste versie van de Seurat vst-methode (via Scanpy) die in twee passes werkt.
Het biedt flexibiliteit om HVG's per monster of per monster-groep te berekenen om batch-effecten te minimaliseren.
Unieke functie: Genen die verrijkt zijn in lege druppels (ambient genen) worden geïdentificeerd via differentialexpressie-analyse (edgeR) en standaard uitgesloten van de ranking om valse variatie te voorkomen.
Integratie en Clustering:
De workflow omvat PCA, batch-correctie met Harmony, nabijheidsgrafiek-construktie, Leiden-clustering en UMAP.
GPU-versnelling: Voor zeer grote datasets biedt scprocess een alternatieve framework gebaseerd op RAPIDS-singlecell, wat enorme snelheidswinst biedt voor clustering en visualisatie.
De integratie wordt tweemaal uitgevoerd: eerst inclusief doublets om doublet-verrijkte clusters te identificeren, en vervolgens opnieuw na filtering.
Marker Genen en Annotatie:
Pseudobulk-approach: In plaats van de Wilcoxon-test per cel (wat statistische onafhankelijkheid veronderstelt), gebruikt scprocess edgeR op geaggregeerde tellingsmatrijzen per monster binnen een cluster. Dit verhoogt de statistische robuustheid.
Annotatie: Integratie van CellTypist (logistieke regressie) en een aangepast XGBoost-model (getraind op hersendata) voor geautomatiseerde celtype-annotatie.
Ondersteuning voor multiplexing (HTO's) via simpleaf en Seurat HTODemux.
Belangrijkste Bijdragen
Unificatie: Een enkel, reproduceerbaar framework dat de volledige workflow van raw FASTQ-bestanden tot geïntegreerde, geannoteerde datasets omvat.
Schaalbaarheid: Specifieke optimalisaties voor HPC-omgevingen en GPU-acceleratie (via RAPIDS) maken het mogelijk om datasets met honderden monsters (bijv. 100+) efficiënt te verwerken.
Modulariteit: Gebruikers kunnen individuele stappen uitvoeren en parameters aanpassen op basis van tussentijdse rapporten (HTML-reports gegenereerd via RMarkdown).
Statistische Verbetering: De implementatie van pseudobulk-methoden voor marker-gene identificatie en de specifieke behandeling van ambient RNA bij de selectie van HVG's.
Transparantie: De configuratie wordt beheerd via een YAML-bestand dat als audit trail dient voor alle gebruikte parameters.
Resultaten
De pipeline is succesvol getest op datasets met tot 149 monsters.
Het produceert gestandaardiseerde outputs (H5AD-bestanden) die compatibel zijn met downstream tools.
De pipeline genereert gedetailleerde HTML-rapporten voor elke stap, waardoor gebruikers tussentijdse resultaten kunnen inspecteren en parameters kunnen verfijnen.
De tool is beschikbaar via GitHub (MIT-licentie) en heeft uitgebreide documentatie met tutorials.
Betekenis en Impact
scprocess adresseert een kritieke behoefte in de moderne single-cell biologie: de noodzaak om complexe, atlas-schaal analyses reproduceerbaar en toegankelijk te maken. Door de afhankelijkheid van handmatige scripts te verminderen en geavanceerde, schaalbare algoritmen (zoals alevin-fry en RAPIDS) te integreren in een gestructureerde workflow, stelt het onderzoekers in staat om:
Grootschalige datasets te analyseren zonder dat ze vastlopen in rekenkracht of geheugenbeperkingen.
De reproduceerbaarheid van hun studies te garanderen door een transparante en gedocumenteerde workflow.
Statistisch robuustere conclusies te trekken door de toepassing van pseudobulk-methoden in plaats van cel-gebaseerde tests.
Dit maakt scprocess een waardevolle tool voor zowel academische instellingen als industriële partners die werken met grote cohesieven van single-cell data.