National and state-level datasets of United States forensic DNA databases 2001-2025

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de Verenigde Staten een gigantische, digitale bibliotheek hebben. Maar in plaats van boeken, staan deze schappen vol met DNA-profielen van mensen. Sommige profielen komen van veroordeelde criminelen, anderen van mensen die gearresteerd zijn (maar nog niet veroordeeld), en weer anderen zijn gevonden op moordplekken of bij andere misdaden.

Deze bibliotheek heet CODIS. Het is het hart van het Amerikaanse forensische DNA-systeem.

Het probleem? Niemand wist precies hoe groot deze bibliotheek precies was, hoe snel hij groeide, of welke regels er in elke staat golden. De gegevens waren verspreid, soms verouderd, en vaak in een vorm die moeilijk te lezen was voor computers. Het was alsof je een bibliotheek hebt, maar de catalogus is geschreven op losse blaadjes papier die door de wind zijn weggeblazen.

Deze paper is als het grote schoonmaak- en inventarisatieproject van die bibliotheek. Hier is wat de onderzoekers hebben gedaan, vertaald in simpele taal:

1. De Grote Opdracht: Een Tijdreis maken

De onderzoekers (een team van antropologen en data-experts) hebben de afgelopen 25 jaar (van 2001 tot 2025) teruggekeken. Ze hebben niet alleen gekeken naar nu, maar ze hebben een tijdmachine gebouwd.

De Nationale Bibliotheek (NDIS): Ze hebben duizenden oude webpagina's van het FBI-archief opgehaald. Het is alsof ze elke maand een foto hebben gemaakt van de totale teller van de bibliotheek. Zo hebben ze een perfecte lijn getrokken die laat zien hoe de database van een klein kastje is uitgegroeid tot een reusachtig magazijn. Ze hebben geteld hoeveel "criminelen", "gearresteerden" en "mysterieuze vondsten" erin zitten.
De 50 Lokale Bibliotheken (SDIS): Elke staat in de VS heeft zijn eigen afdeling. Sommige staten zijn heel open en delen hun aantallen, andere houden het geheim. De onderzoekers hebben voor elke van de 50 staten gekeken: "Hoeveel mensen hebben jullie?" en "Wat zijn de regels?".
- Voorbeeld: In de ene staat mag je DNA afnemen van iemand die alleen maar gearresteerd is (zoals een verdachte), in de andere staat mag dat niet. In sommige staten mag je DNA van een verdachte vergelijken met dat van een familielid (familiezoektocht), in andere staten is dat verboden. Ze hebben al deze regels in één overzicht gezet.
De Demografie (Wie zit erin?): Dit was het moeilijkste stukje. Wie zitten er in die database? Zijn er meer mannen of vrouwen? Welke etnische groepen zijn oververtegenwoordigd?
- Omdat dit soort gegevens vaak niet online staat, hebben ze een oude schat gevonden: een onderzoek uit 2020 waarbij iemand via officiële verzoeken (FOIA) bij zeven staten de papieren had opgevraagd. De onderzoekers hebben deze oude, gescande papieren nu omgezet in een digitaal, leesbaar formaat. Het is alsof ze oude, vergeelde administratieboeken hebben ingescand en in een moderne app hebben gezet.

2. Waarom is dit zo belangrijk? (De Metafoor van de "Groeislag")

Stel je voor dat je een plant wilt kweken. Als je niet weet hoe groot hij elke dag was, kun je niet zeggen of hij snel groeit of traag.

Met deze nieuwe dataset kunnen onderzoekers nu precies zien wanneer de database hard groeide.
Ze kunnen bijvoorbeeld zien of een nieuwe wet (bijvoorbeeld: "We mogen nu DNA nemen van elke gearresteerde") direct heeft geleid tot een explosie in het aantal profielen.
Ze kunnen ook zien of er "gaten" in de data zitten, of dat bepaalde staten hun administratie niet goed bijhouden.

3. De "Schoonmaakbeurt" (Data Validatie)

Omdat ze zo veel oude webpagina's hebben opgehaald, waren er natuurlijk foutjes.

Soms stond er "1.000.000" in plaats van "100.000" (een typfout).
Soms verscheen een oude getal ineens weer terug, alsof de website een "gecacheerde" (oude) versie laadde.
De onderzoekers hebben een slim computerprogramma geschreven dat als een detective werkt. Het zoekt naar deze rare pieken en dalen en markeert ze. Ze gooien de data niet weg, maar zeggen: "Kijk hier, dit getal ziet er verdacht uit, wees voorzichtig." Zo kunnen andere wetenschappers zelf beslissen hoe ze met die twijfelachtige cijfers omgaan.

4. Het Resultaat: Een Open Schatkist

Het belangrijkste is dat deze gegevens nu gratis en openbaar zijn.

Het is alsof de onderzoekers de sleutel hebben gegeven aan iedereen: journalisten, wetenschappers, juristen en burgers.
Iedereen kan nu zelf onderzoeken: "Is mijn staat eerlijk?" of "Hoe groeit dit systeem wereldwijd?"
Ze hebben niet alleen de cijfers gegeven, maar ook de code (de instructies) waarmee ze de cijfers hebben gevonden. Dit betekent dat als er morgen een nieuwe update komt, iemand anders precies weet hoe ze die moeten verwerken.

Kortom:
Deze paper is de "Google Maps" voor de Amerikaanse DNA-database. Voorheen was het een wirwar van wegen zonder borden. Nu hebben de onderzoekers een heldere kaart getekend, met alle regels, aantallen en geschiedenis, zodat we precies kunnen zien waar we staan en waar we naartoe gaan. Het helpt ons te begrijpen hoe technologie, recht en privacy in de VS met elkaar verweven zijn.

National and state-level datasets of United States forensic DNA databases 2001-2025

1. De Grote Opdracht: Een Tijdreis maken

2. Waarom is dit zo belangrijk? (De Metafoor van de "Groeislag")

3. De "Schoonmaakbeurt" (Data Validatie)

4. Het Resultaat: Een Open Schatkist

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

National and state-level datasets of United States forensic DNA databases 2001-2025

1. De Grote Opdracht: Een Tijdreis maken

2. Waarom is dit zo belangrijk? (De Metafoor van de "Groeislag")

3. De "Schoonmaakbeurt" (Data Validatie)

4. Het Resultaat: Een Open Schatkist

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Online Monitoring of Metric Temporal Logic using Sequential Networks

Module checking of pushdown multi-agent systems

Probabilistic Counters for Privacy Preserving Data Aggregation

Homomorphisms of (n,m)-graphs with respect to generalised switch

Agent based decision making for Integrated Air Defense system