Shotgun DNA sequencing evidence: sample-specific and unknown genotyping error probabilities

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een mysterie moet oplossen: Wie heeft dit spoor achtergelaten?

In de wereld van forensisch DNA-onderzoek is het vaak zo dat het spoor (bijvoorbeeld een haartje van een dader) in slechte staat is. Het DNA is versnipperd, net als een oude krant die door de regen is verrot en waar de tekst moeilijk leesbaar is. Traditionele methoden (zoals het zoeken naar specifieke "strepen" in het DNA) werken dan niet meer.

Gelukkig kunnen wetenschappers nu een andere techniek gebruiken: Shotgun DNA-sequencing. Dit is alsof je de versnipperde krant niet als geheel bekijkt, maar elke losse letter (een SNP) apart scant om te zien wat er staat.

Maar hier zit een addertje onder het gras: omdat het spoor zo slecht is, maken deze scanners fouten. Ze lezen soms een 'A' als een 'G'. En hoe meer fouten, hoe lastiger het is om te zeggen: "Dit spoor komt van die verdachte" of "Nee, dat is iemand anders."

Deze paper van Mikkel Meyer Andersen lost precies dit probleem op. Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: Twee verschillende kwaliteiten

Stel je twee mensen voor die een getuigenis afleggen:

De Verdachte (Referent): Deze persoon zit in een goed verlichte kamer, heeft een goed geheugen en spreekt helder. Zijn "DNA-profiel" is perfect.
Het Spoor (Trace): Dit is een getuige die in een donkere kelder zit, met een verkoudheid, en die de gebeurtenis al lang geleden zag. Zijn "DNA-profiel" is rommelig en bevat veel onzekerheid.

De oude rekenmethodes gingen ervan uit dat beide getuigen even goed waren. Maar dat is onrealistisch. Als je de fouten van de slechte getuige negeert, kun je denken dat ze hetzelfde zeggen, terwijl ze het eigenlijk niet zijn. Of je denkt dat ze verschillend zijn, terwijl het gewoon een vergissing was.

2. De Oplossing: Een slimme rekenmachine (Het wgsLR-model)

De auteur heeft een nieuwe versie van de rekenmachine (het wgsLR-model) gemaakt die rekening houdt met dit verschil.

Asymmetrische fouten: De nieuwe machine weet: "Oké, de verdachte maakt bijna geen fouten, maar het spoor maakt er veel." Hij past de berekening daarop aan.
Onbekende fouten: Soms weten we zelfs niet hoeveel fouten het spoor maakt. Het spoor is zo slecht dat we het niet kunnen meten. Wat nu?

De paper biedt drie manieren om hiermee om te gaan, alsof je een schatzoeker bent die een kaart probeert te lezen:

Methode A: De "Gok" (Bayesiaanse integratie)

Je maakt een verstandige gok over hoeveel fouten er waarschijnlijk zijn. Je zegt: "Laten we aannemen dat het spoor gemiddeld 1 op de 100 letters verkeerd leest." Je rekent dan met alle mogelijke scenario's rondom die gok en neemt het gemiddelde.

De les: Als je te optimistisch bent (denkt dat het spoor heel goed is), kun je de verkeerde conclusie trekken. Het is veiliger om te denken dat het spoor slechter is dan het misschien is. Dat is een "conservatieve" benadering: liever twijfelen dan iemand onterecht veroordelen.

Methode B: De "Beste Schatting" (Maximum Profile Likelihood)

Hier probeer je voor elk scenario (is het de verdachte of niet?) de foutkans te vinden die de situatie het beste verklaart.

De les: Dit werkt goed als je veel letters (DNA-markers) hebt. Maar bij weinig letters kan het soms "op de gok" spelen en de verkeerde kant op duwen.

Methode C: De "Simpele Regel" (Gebruik de verdachte-waarde)

Dit is de meest praktische tip uit het papier: Als je het spoor niet goed genoeg kunt meten, doe dan alsof het spoor even goed is als de verdachte.

Waarom? Omdat het spoor in werkelijkheid waarschijnlijk slechter is, maak je hiermee een "veilige" fout. Je negeert de extra rommeligheid van het spoor. Dit zorgt ervoor dat je niet te snel zegt: "Het is hem!" als het misschien gewoon een slechte meting is.

3. De Belangrijkste Bevindingen (De "Moraal van het verhaal")

Robuustheid: Het model is als een stalen brug. Zelfs als de fouten niet overal gelijk zijn verdeeld (soms meer, soms minder), blijft de brug staan. De gemiddelde uitkomst is nog steeds betrouwbaar.
Veiligheid is voorop: Het is veiliger om te denken dat er meer fouten zijn in het slechte spoor dan dat er minder zijn.
- Analogie: Als je een vage vingerafdruk hebt, is het veiliger om te zeggen "Dit zou van iemand anders kunnen zijn door een smet" dan "Dit is zeker van de dader, want de smet is een toeval."
Hoe meer, hoe beter: Als je maar genoeg losse letters (DNA-markers) scant (bijvoorbeeld 200 of meer), werken al deze methoden prima. Je krijgt dan een heel sterk bewijs, of het nu een match is of niet.

Conclusie voor de leek

Deze paper zegt eigenlijk: "We hebben een nieuwe, slimmere manier om slechte DNA-sporen te interpreteren."

In plaats van te proberen het perfecte antwoord te vinden, accepteert de methode dat het spoor rommelig is. Hij rekent met verschillende scenario's en kiest altijd de kant van de voorzichtigheid. Als je niet zeker weet hoe slecht het spoor is, ga dan uit van het slechtst mogelijke scenario. Zo voorkom je dat je iemand onterecht veroordeelt omdat je dacht dat de meting perfect was, terwijl het eigenlijk een rommelige meting was.

Dit maakt de forensische wetenschap veiliger en eerlijker, zelfs als het bewijsmateriaal (zoals een oud haartje) in slechte staat verkeert.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Shotgun DNA sequencing evidence: sample-specific and unknown genotyping error probabilities" van Mikkel Meyer Andersen, geschreven in het Nederlands.

Titel: Shotgun DNA-sequencing bewijs: samplespecifieke en onbekende genotyperingsfoutkansen

1. Het Probleem

In de forensische genetica zijn veel sporen (zoals telogene haren of sterk gefragmenteerd DNA) van zo slechte kwaliteit of te kleine hoeveelheid dat het onmogelijk is om korte tandemrepeat (STR)-profielen te verkrijgen via standaard PCR-CE-methoden. In plaats daarvan wordt er steeds vaker gebruikgemaakt van shotgun DNA-sequencing om informatie te halen uit enkel-nucleotide polymorfismen (SNP's).

Echter, shotgun sequencing is niet foutloos. De oorspronkelijke statistische modellen, zoals het wgsLR-model (Andersen et al., 2025), gingen uit van één enkele, symmetrische genotyperingsfoutkans ( $w$ ) voor zowel het spoor (trace sample) als het referentiestaal (bijv. van een verdachte). In de praktijk is dit vaak onrealistisch:

Asymmetrie: Het spoor is vaak van slechte kwaliteit (hoge foutkans, $w_t$ ), terwijl het referentiestaal van hoge kwaliteit is (lage foutkans, $w_r$ ).
Onbekende parameters: Voor het spoor is de exacte foutkans vaak onbekend, terwijl deze voor het referentiestaal wel in het lab bepaald kan worden.
Overdispersie: De foutkans is niet overal in het genoom gelijk; sommige regio's zijn vatbaarder voor fouten dan anderen, wat leidt tot een hogere variantie dan het model verwacht.

Er is behoefte aan statistische modellen die deze asymmetrie en onzekerheid correct kunnen verwerken om de bewijskracht (Weight of Evidence, WoE) nauwkeurig te berekenen.

2. Methodologie

Het artikel breidt het bestaande wgsLR-model uit om de volgende scenario's te hanteren:

Asymmetrische foutkansen: Het model is aangepast om aparte foutkansen toe te staan voor het spoor ( $w_t$ ) en het referentiestaal ( $w_r$ ). Dit resulteert in nieuwe likelihood-ratio (LR) formules (weergegeven in Tabel 1 van het artikel) die rekening houden met de specifieke foutkansen van beide samples.
Omgaan met onbekende $w_t$ : Er zijn drie benaderingen onderzocht voor het geval $w_t$ $w_{t}$ niet bekend is:
1. Bayesiaanse integratie: $w_t$ wordt behandeld als een stochastische variabele met een a-priori verdeling (Beta-verdeling). De waarschijnlijkheid wordt gemarginaliseerd over deze verdeling (prior predictive distribution).
2. Profiel-likelihood maximalisatie: Voor elke hypothese ( $H_1$ : dezelfde donor; $H_2$ : verschillende donoren) wordt de waarde van $w_t$ gekozen die de likelihood maximaliseert.
3. Plug-in schatting: Het simpelweg aannemen dat $w_t = w_r$ (wat een onder schatting is als het spoor slechter is).
Robuustheidstest: Er is onderzocht hoe het model reageert op overdispersie (wanneer de foutkans varieert per genomische regio, maar de gemiddelde waarde gelijk blijft).
Simulaties: Uitgebreide simulaties zijn uitgevoerd in R met verschillende allelfrequenties, aantallen onafhankelijke SNP-markers (50, 100, 200) en verschillende waarden voor $w_t$ en $w_r$ . De prestaties werden gemeten aan de hand van de Weight of Evidence (WoE = $\log_{10}(LR)$ ), de correctheid van het teken van de WoE, en de Empirische Cross-Entropy (ECE).

3. Belangrijkste Bijdragen

Extensie van het wgsLR-model: Het model kan nu omgaan met samplespecifieke (asymmetrische) genotyperingsfoutkansen ( $w_t \neq w_r$ ).
Behandeling van onzekerheid: Er zijn methoden ontwikkeld en geïmplementeerd in het R-pakket wgsLR om onbekende foutkansen te verwerken via integratie over een prior of via profiel-likelihood maximalisatie.
Validatie van overdispersie: Het model is getest op gevoeligheid voor overdispersie en bleek zeer robuust.
Praktische aanbeveling: Het artikel biedt een onderbouwde aanbeveling voor forensische praktijken wanneer de foutkans van het spoor onbekend is.

4. Resultaten

Robuustheid: Het model is zeer robuust tegenoverdispersie; de geschatte gemiddelde foutkans ( $w$ ) bleef correct zelfs als de foutkans per regio varieerde.
Asymmetrie en conservatisme:
- Het is conservatiever (levert een WoE dichter bij 0 op, wat minder sterk bewijs is) om een te lage foutkans voor het spoor aan te nemen dan een te hoge.
- Een te hoge foutkans kan genotype-inconsistenties uitleggen als "fouten" in plaats van als bewijs dat het om twee verschillende personen gaat. Dit kan leiden tot een verkeerd teken van de WoE (positief in plaats van negatief voor $H_2$ ).
- Het aannemen dat $w_t = w_r$ (waarbij $w_r$ laag is) bleek een veilige, conservatieve benadering te zijn, zelfs als het spoor eigenlijk een hogere foutkans heeft.
Methodenvergelijking:
- Bij een groot aantal markers (200) presteerden alle methoden goed en was er geen sprake van een verkeerd teken van de WoE.
- Bij een kleiner aantal markers (50-100) gaf de methode van profiel-likelihood maximalisatie soms een verkeerd teken voor $H_2$ -gevallen (verschillende donoren), vooral als de ware foutkans hoog was.
- Bayesiaanse integratie met een prior die gebaseerd is op de bekende $w_r$ (of een schatting daarvan) leverde de meest consistente en conservatieve resultaten op.
Concordantie: Wanneer er voldoende markers zijn, geven de verschillende methoden voor het hanteren van onbekende $w_t$ concordante resultaten voor de WoE onder beide hypothesen.

5. Betekenis en Conclusie

Deze paper is van cruciaal belang voor de moderne forensische genetica, aangezien shotgun sequencing steeds vaker wordt ingezet voor moeilijke sporen. De belangrijkste conclusies zijn:

Implementatie: De nieuwe methoden zijn beschikbaar in het vernieuwde R-pakket wgsLR.
Praktische Richtlijn: Omdat het vaak conservatiever is om de foutkans van het spoor te onderschatten dan te overschatten, en omdat het vaak onmogelijk is om $w_t$ exact te bepalen zonder replicaten, wordt aanbevolen om in de praktijk $w_t = w_r$ te gebruiken (waarbij $w_r$ de nauwkeurig bepaalde foutkans van het referentiestaal is). Dit voorkomt dat genotype-inconsistenties ten onrechte worden toegeschreven aan sequencingfouten in plaats van aan verschillende donoren.
Alternatief: Als replicaten van het spoor beschikbaar zijn, kan $w_t$ beter geschat worden (via frequentie of Bayesiaanse posterior) om de nauwkeurigheid te verhogen.

Samenvattend biedt dit werk een robuust statistisch raamwerk om de bewijskracht van shotgun DNA-sequencing data correct te interpreteren, zelfs wanneer de kwaliteit van het spoor slecht is en de foutkansen onbekend of asymmetrisch zijn.