Shotgun DNA sequencing evidence: sample-specific and unknown genotyping error probabilities

Dit artikel breidt het wgsLR-model uit voor shotgun DNA-sequencing in de forensische genetica door asymmetrische en onbekende genotypefoutkansen te modelleren, wat resulteert in robuuste en conservatieve bewijskrachtschattingen die zijn geïmplementeerd in het R-pakket wgsLR.

Mikkel Meyer Andersen

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een mysterie moet oplossen: Wie heeft dit spoor achtergelaten?

In de wereld van forensisch DNA-onderzoek is het vaak zo dat het spoor (bijvoorbeeld een haartje van een dader) in slechte staat is. Het DNA is versnipperd, net als een oude krant die door de regen is verrot en waar de tekst moeilijk leesbaar is. Traditionele methoden (zoals het zoeken naar specifieke "strepen" in het DNA) werken dan niet meer.

Gelukkig kunnen wetenschappers nu een andere techniek gebruiken: Shotgun DNA-sequencing. Dit is alsof je de versnipperde krant niet als geheel bekijkt, maar elke losse letter (een SNP) apart scant om te zien wat er staat.

Maar hier zit een addertje onder het gras: omdat het spoor zo slecht is, maken deze scanners fouten. Ze lezen soms een 'A' als een 'G'. En hoe meer fouten, hoe lastiger het is om te zeggen: "Dit spoor komt van die verdachte" of "Nee, dat is iemand anders."

Deze paper van Mikkel Meyer Andersen lost precies dit probleem op. Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: Twee verschillende kwaliteiten

Stel je twee mensen voor die een getuigenis afleggen:

  • De Verdachte (Referent): Deze persoon zit in een goed verlichte kamer, heeft een goed geheugen en spreekt helder. Zijn "DNA-profiel" is perfect.
  • Het Spoor (Trace): Dit is een getuige die in een donkere kelder zit, met een verkoudheid, en die de gebeurtenis al lang geleden zag. Zijn "DNA-profiel" is rommelig en bevat veel onzekerheid.

De oude rekenmethodes gingen ervan uit dat beide getuigen even goed waren. Maar dat is onrealistisch. Als je de fouten van de slechte getuige negeert, kun je denken dat ze hetzelfde zeggen, terwijl ze het eigenlijk niet zijn. Of je denkt dat ze verschillend zijn, terwijl het gewoon een vergissing was.

2. De Oplossing: Een slimme rekenmachine (Het wgsLR-model)

De auteur heeft een nieuwe versie van de rekenmachine (het wgsLR-model) gemaakt die rekening houdt met dit verschil.

  • Asymmetrische fouten: De nieuwe machine weet: "Oké, de verdachte maakt bijna geen fouten, maar het spoor maakt er veel." Hij past de berekening daarop aan.
  • Onbekende fouten: Soms weten we zelfs niet hoeveel fouten het spoor maakt. Het spoor is zo slecht dat we het niet kunnen meten. Wat nu?

De paper biedt drie manieren om hiermee om te gaan, alsof je een schatzoeker bent die een kaart probeert te lezen:

Methode A: De "Gok" (Bayesiaanse integratie)

Je maakt een verstandige gok over hoeveel fouten er waarschijnlijk zijn. Je zegt: "Laten we aannemen dat het spoor gemiddeld 1 op de 100 letters verkeerd leest." Je rekent dan met alle mogelijke scenario's rondom die gok en neemt het gemiddelde.

  • De les: Als je te optimistisch bent (denkt dat het spoor heel goed is), kun je de verkeerde conclusie trekken. Het is veiliger om te denken dat het spoor slechter is dan het misschien is. Dat is een "conservatieve" benadering: liever twijfelen dan iemand onterecht veroordelen.

Methode B: De "Beste Schatting" (Maximum Profile Likelihood)

Hier probeer je voor elk scenario (is het de verdachte of niet?) de foutkans te vinden die de situatie het beste verklaart.

  • De les: Dit werkt goed als je veel letters (DNA-markers) hebt. Maar bij weinig letters kan het soms "op de gok" spelen en de verkeerde kant op duwen.

Methode C: De "Simpele Regel" (Gebruik de verdachte-waarde)

Dit is de meest praktische tip uit het papier: Als je het spoor niet goed genoeg kunt meten, doe dan alsof het spoor even goed is als de verdachte.

  • Waarom? Omdat het spoor in werkelijkheid waarschijnlijk slechter is, maak je hiermee een "veilige" fout. Je negeert de extra rommeligheid van het spoor. Dit zorgt ervoor dat je niet te snel zegt: "Het is hem!" als het misschien gewoon een slechte meting is.

3. De Belangrijkste Bevindingen (De "Moraal van het verhaal")

  1. Robuustheid: Het model is als een stalen brug. Zelfs als de fouten niet overal gelijk zijn verdeeld (soms meer, soms minder), blijft de brug staan. De gemiddelde uitkomst is nog steeds betrouwbaar.
  2. Veiligheid is voorop: Het is veiliger om te denken dat er meer fouten zijn in het slechte spoor dan dat er minder zijn.
    • Analogie: Als je een vage vingerafdruk hebt, is het veiliger om te zeggen "Dit zou van iemand anders kunnen zijn door een smet" dan "Dit is zeker van de dader, want de smet is een toeval."
  3. Hoe meer, hoe beter: Als je maar genoeg losse letters (DNA-markers) scant (bijvoorbeeld 200 of meer), werken al deze methoden prima. Je krijgt dan een heel sterk bewijs, of het nu een match is of niet.

Conclusie voor de leek

Deze paper zegt eigenlijk: "We hebben een nieuwe, slimmere manier om slechte DNA-sporen te interpreteren."

In plaats van te proberen het perfecte antwoord te vinden, accepteert de methode dat het spoor rommelig is. Hij rekent met verschillende scenario's en kiest altijd de kant van de voorzichtigheid. Als je niet zeker weet hoe slecht het spoor is, ga dan uit van het slechtst mogelijke scenario. Zo voorkom je dat je iemand onterecht veroordeelt omdat je dacht dat de meting perfect was, terwijl het eigenlijk een rommelige meting was.

Dit maakt de forensische wetenschap veiliger en eerlijker, zelfs als het bewijsmateriaal (zoals een oud haartje) in slechte staat verkeert.