National and state-level datasets of United States forensic DNA databases 2001-2025

이 논문은 2001 년부터 2025 년까지 미국의 국가 및 주 차원 형사 DNA 데이터베이스의 구조, 구성, 정책 및 인구통계학적 데이터를 체계적으로 기록하고 조화시킨 일련의 데이터셋을 제시하여, 데이터베이스의 역사적 발전과 정책 변이를 분석할 수 있는 기반을 마련합니다.

Yemko Pryor, Virum Ranka, Joao Pedro Donadio, Samantha C. Muller, Jenna Wilson, Tina Lasisi

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: 거대한 '디지털 도서관'과 '낡은 기록장'

미국에는 CODIS라는 거대한 '디지털 도서관'이 있습니다. 여기에는 범인의 DNA 정보 (범인 책), 사건 현장에서 발견된 미확인 범인의 DNA 정보 (미해결 사건 책), 그리고 체포된 사람의 DNA 정보 (체포 기록 책) 가 쌓여 있습니다.

하지만 문제는 이 도서관의 기록이 너무 산발적이라는 거예요.

  • FBI 는 매달 숫자를 발표하지만, 그건 마치 "오늘 도서관에 책이 100 권 더 생겼어요"라고 말하고 끝내는 단순한 뉴스일 뿐입니다.
  • 시간이 지나면 그 뉴스는 사라지고, 나중에 "과거에 책이 얼마나 있었지?"라고 찾아보면 자료가 없거나 조각조각 나 있습니다.
  • 각 주 (State) 마다 기록하는 방식도 다르고, 어떤 주는 인구 구성 (인종, 성별) 같은 중요한 정보도 공개하지 않습니다.

이 논문 연구진들은 **"이 조각난 퍼즐 조각들을 모두 모아, 2001 년부터 2025 년까지의 완벽한 역사책으로 만들자!"**라고 결심했습니다.


🛠️ 연구진이 한 일: 세 가지 주요 작업

연구진은 이 거대한 작업을 세 가지 단계로 나누어 수행했습니다.

1. 시간 여행을 통한 데이터 복원 (NDIS 시간 시리즈)

  • 비유: 인터넷의 '시간 캡슐'인 Wayback Machine을 이용해 과거의 FBI 웹사이트를 모두 다시 방문한 셈입니다.
  • 작업: 2001 년부터 2025 년까지 매달 업데이트된 FBI 웹사이트를 캡처했습니다. 웹사이트 디자인이 2007 년, 2012 년, 2017 년마다 바뀐 것을 고려해, 각 시대에 맞는 **자동 번역기 (파서)**를 만들어 데이터를 뽑아냈습니다.
  • 결과: "2005 년 3 월, 텍사스주에서는 범인 DNA 가 1,000 개 늘었다"처럼 매달의 정확한 숫자를 담은 시계열 데이터를 완성했습니다.

2. 각 주의 정책 지도 그리기 (SDIS 및 정책 데이터)

  • 비유: 미국 50 개 주의 '법률 책'을 모두 펼쳐서 비교한 것입니다.
  • 작업: 각 주가 DNA 를 언제, 누구에게서 수집하는지 (예: 체포된 사람도 포함하는지?), 가족 간의 DNA 를 대조하는 '가족 검색'을 허용하는지 등을 조사했습니다.
  • 결과: "A 주는 체포된 사람의 DNA 도 모으지만, B 주는 모으지 않는다"처럼 주별 정책 차이를 한눈에 볼 수 있는 지도를 만들었습니다.

3. 숨겨진 인구 통계 찾기 (FOIA 데이터)

  • 비유: 공개되지 않았던 비밀 문서를 찾아내어 정리한 것입니다.
  • 작업: 과거 연구진이 정보공개청구 (FOIA) 를 통해 7 개 주로부터 받은 DNA 데이터의 인종과 성별 비율 자료를 디지털화했습니다.
  • 결과: "이 데이터베이스에 흑인, 백인, 아시아인이 각각 얼마나 있는가?"라는 중요한 질문을 답할 수 있는 기초 자료를 확보했습니다. (다만, 이 데이터는 2018 년 당시 7 개 주의 자료라 전국 대표성은 제한적입니다.)

🧹 데이터 청소: '오류'를 잡아내는 과정

수집한 데이터에는 오류도 있었습니다. 예를 들어, "100 개"여야 할 데이터가 실수로 "1,000 개"로 입력되거나, 웹사이트가 다시 로드되면서 예전 숫자가 다시 나타나는 경우 등입니다.

  • 비유: 마치 수영장에 떨어진 나뭇잎과 돌멩이를 걸러내는 필터를 만든 것과 같습니다.
  • 작업: 연구진은 "갑자기 숫자가 2 배로 뛰었다가 다시 돌아오면 오류일 가능성이 높다"는 규칙을 세우고, 의심스러운 데이터에 **빨간색 경고 표시 (Flag)**를 다는 시스템을 만들었습니다.
  • 중요한 점: 데이터를 삭제하지 않고, "이건 의심스러운 데이터입니다"라고 표시해 두어, 연구자들이 필요에 따라 직접 필터링할 수 있게 했습니다.

📊 이 데이터가 왜 중요한가요?

이 논문이 만든 데이터 세트는 다음과 같은 질문에 답할 수 있는 토대가 됩니다.

  1. 역사적 추적: "2017 년에 DNA 검사 기술이 바뀌었을 때, 데이터베이스 크기가 어떻게 변했을까?"
  2. 정책 비교: "어떤 주의 DNA 수집 정책이 더 엄격한가? 그 결과 범죄 해결률은 어떻게 달라지는가?"
  3. 사회적 논의: "데이터베이스에 특정 인종이나 성별의 비율이 불균형하게 높은 이유는 무엇인가?"

💡 결론

이 논문은 단순히 숫자를 모은 것이 아니라, 미국의 범죄 수사 시스템이 어떻게 작동해 왔는지, 그리고 그 시스템이 우리 사회에 어떤 영향을 미쳤는지를 투명하게 들여다볼 수 있는 거대한 거울을 제공한 것입니다.

이 모든 데이터와 코드는 누구나 무료로 다운로드하여 연구나 분석에 사용할 수 있도록 공개되었습니다. 마치 공공 도서관의 책처럼 말이죠.