Shotgun DNA sequencing evidence: sample-specific and unknown genotyping error probabilities

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 새로운 방법이 필요한가요?

전통적인 법의학에서는 범죄 현장에서 발견된 DNA(예: 머리카락, 타액 등) 를 분석할 때 **STR(짧은 반복 서열)**이라는 방법을 썼습니다. 하지만 이 방법은 DNA 가 너무 잘게 부서지거나 양이 너무 적으면 실패합니다. 마치 완전히 찢어진 편지를 읽으려다 글자가 너무 작아져서 내용을 알 수 없는 상황과 같습니다.

이때 ** Shotgun DNA 시퀀싱(총알처럼 쏘아 퍼뜨려서 전체를 읽는 방식)**이라는 새로운 기술이 등장했습니다. 이 기술은 찢어진 편지의 **조각조각 (SNP 마커)**을 모아 내용을 유추할 수 있게 해줍니다. 하지만 문제는 이 기술이 완벽하지 않다는 점입니다. 조각을 읽는 과정에서 실수 (오류) 가 생길 수 있습니다.

2. 이 논문의 핵심 해결책: "오류"를 인정하는 수학

이 논문의 저자는 **"실수를 어떻게 계산에 포함시킬까?"**라는 질문에 답하기 위해 수학적 모델을 발전시켰습니다. 세 가지 주요 아이디어가 있습니다.

① "두 개의 다른 실수율" (비대칭 오류)

상황: 범죄 현장의 DNA(낡은 편지) 는 상태가 매우 나빠서 실수가 자주 일어날 수 있습니다. 반면, 용의자의 DNA(깨끗한 원본) 는 실험실에서 완벽하게 준비되었으므로 실수가 거의 없습니다.
기존의 문제: 예전 모델은 두 샘플의 실수율이 똑같다고 가정했습니다.
이 논문의 해결: **"현장 샘플의 실수율 ( $w_t$ $w_{t}$ ) 은 높고, 용의자 샘플의 실수율 ( $w_r$ $w_{r}$ ) 은 낮다"**고 따로따로 계산할 수 있게 만들었습니다.
- 비유: 낡은 편지의 글자가 흐릿해서 잘못 읽을 확률이 10% 라면, 깨끗한 원본은 0.01% 정도라고 가정하고 계산하는 것입니다. 이렇게 하면 더 정확한 결론을 낼 수 있습니다.

② "실수를 모를 때" (알 수 없는 오류 처리)

상황: 현장 DNA 의 상태가 너무 나빠서 정확히 몇 % 실수가 날지조차 모를 때가 있습니다.
해결책: 두 가지 방법을 제안했습니다.
1. 확률적 접근 (베이지안): "실수율이 1% 일 수도 있고 5% 일 수도 있다"는 다양한 가능성을 모두 고려해서 평균적인 결과를 냅니다. (비유: 비가 올 확률이 30% 일 수도 있고 70% 일 수도 있으니, 두 경우를 모두 고려해서 우산 준비 계획을 세우는 것)
2. 최대 가능성 접근: "가장 그럴듯한 실수율"을 찾아서 계산합니다.
중요한 발견: 연구 결과, 실수율을 너무 낮게 잡는 것 (안전하게 잡는 것) 이 너무 높게 잡는 것보다 낫다는 것이 밝혀졌습니다.
- 이유: 실수율이 높다고 가정하면, "현장과 용의자가 다른 사람인데도 DNA 가 안 맞는 건 실수 때문이야"라고 변명할 수 있게 되어, 진짜 범인을 놓칠 수 있기 때문입니다. 반대로 실수율을 낮게 잡으면, "안 맞는 건 실수가 아니라 진짜 다른 사람이다"라고 확신할 수 있어 더 안전합니다.

③ "데이터가 조금만 있어도 괜찮아" (과도한 분산에 대한 강인함)

DNA 전체를 다 읽을 때, 어떤 부분은 실수가 많고 어떤 부분은 적을 수 있습니다. 이 논문은 **"평균 실수율만 정확하면, 부분적인 편차 (과도한 분산) 가 있어도 모델이 망가지지 않는다"**는 것을 증명했습니다.
- 비유: 전체 평균이 100 점이라면, 어떤 학생은 90 점, 어떤 학생은 110 점을 받아도 전체적인 평균은 여전히 100 점으로 유지된다는 뜻입니다. 이 모델은 그런 편차에도 매우 강합니다.

3. 결론 및 실제 활용

이 논문의 연구 결과는 **wgsLR**이라는 컴퓨터 프로그램 (R 패키지) 으로 구현되었습니다.

핵심 메시지: 범죄 현장의 DNA 가 너무 손상되어 있어도, 새로운 수학 모델을 사용하면 그 조각들을 모아도 신뢰할 만한 증거를 만들 수 있습니다.
실천 방안: 만약 현장 DNA 의 정확한 오류율을 모른다면, 용의자의 깨끗한 DNA 오류율과 똑같다고 가정하고 계산하는 것이 가장 안전하고 보수적인 (실수를 범할 확률이 낮은) 방법입니다.

한 줄 요약:

"낡고 찢어진 DNA 편지 조각도, 실수 가능성을 정확히 계산하는 새로운 수학을 쓰면, 깨끗한 원본과 비교해 범인을 찾아낼 수 있는 강력한 증거가 됩니다. 그리고 실수를 너무 과소평가하는 것보다 안전하게 (낮게) 잡는 것이 더 안전합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

현황: 대부분의 법의학적 DNA 분석은 PCR-CE 기법을 사용하여 STR (Short Tandem Repeat) 프로파일을 생성합니다. 그러나 휴지모 (telogen hairs) 나 심하게 분해된 DNA 와 같이 DNA 양이 적거나 품질이 낮은 시료의 경우 STR 프로파일 획득이 불가능합니다.
대안: 이러한 저품질 시료는 SNP (Single Nucleotide Polymorphism) 마커를 분석하기 위해 샷건 시퀀싱 (Whole-genome sequencing) 을 사용할 수 있습니다.
문제점: 시퀀싱은 오류가 발생하며, 특히 Trace Sample (증거물) 과 Reference Sample (참조 시료, 예: 용의자 구강 면봉) 의 품질 차이가 큽니다.
- Trace Sample 은 품질이 낮아 유전형 오류 확률 ( $w_t$ ) 이 높을 수 있습니다.
- Reference Sample 은 고품질이므로 오류 확률 ( $w_r$ ) 이 낮고 정확히 추정 가능합니다.
기존 모델의 한계: Andersen 등 (2025) 의 기존 wgsLR 모델은 두 시료의 유전형 오류 확률이 동일하다고 가정 ( $w_t = w_r = w$ ) 했습니다. 이는 실제 법의학적 상황 (품질 차이) 을 반영하지 못합니다. 또한, Trace Sample 의 오류 확률 ( $w_t$ ) 을 정확히 알 수 없는 경우를 처리하는 방법이 부족했습니다.

2. 방법론 (Methodology)

이 논문은 기존 wgsLR 모델을 세 가지 주요 방향으로 확장했습니다. 모든 분석은 R 패키지 wgsLR를 사용하여 수행되었습니다.

가. 과분산 (Overdispersion) 에 대한 민감도 분석

유전체 전체의 평균 오류 확률이 $w$ 로 일정하더라도, 특정 영역에서 오류율이 높거나 낮을 수 있는 '과분산' 상황을 가정했습니다.
오류 확률을 베타 분포 (Beta distribution) 에서 무작위로 추출하여 시뮬레이션하고, 추정된 $w$ 가 평균값을 잘 회복하는지 확인했습니다.

나. 시료별 특이적 오류 확률 (Sample-specific Error Probabilities)

Trace Sample 의 오류 확률 ( $w_t$ ) 과 Reference Sample 의 오류 확률 ( $w_r$ ) 을 서로 다른 값으로 설정하여 비대칭 (Asymmetric) 오류 모델을 개발했습니다.
이를 위해 두 시료의 유전형 ( $X_t, X_r$ ) 과 참 유전형 ( $Z_t, Z_r$ ) 간의 관계를 재정의하고, $w_t$ 와 $w_r$ 을 모두 포함한 새로운 우도비 (Likelihood Ratio, LR) 공식을 유도했습니다 (Table 1 참조).

다. 미지의 오류 확률 처리 (Handling Unknown Error Probabilities)

Trace Sample 의 $w_t$ 를 알 수 없는 경우, 두 가지 통계적 접근법을 제안했습니다.

사전 분포 적분 (Bayesian Integration): $w_t$ $w_{t}$ 를 확률 변수로 간주하고, 사전 분포 (Prior distribution, Beta 분포) 를 가정한 후 우도 함수를 적분하여 기대값을 구합니다.
- $LR = \frac{E[P(E|H_1, w_t)]}{E[P(E|H_2, w_t)]}$
프로파일 우도 최대화 (Profile Likelihood Maximization): 각 가설 ( $H_1$ $H_{1}$ : 동일인, $H_2$ $H_{2}$ : 다른인) 하에서 우도 함수를 최대화하는 $w_t$ $w_{t}$ 값을 찾아 LR 을 계산합니다.
- $WoE = \log_{10} \left( \frac{\max_{w_t} P(E|H_1, w_t)}{\max_{w_t} P(E|H_2, w_t)} \right)$

3. 주요 결과 (Key Results)

가. 과분산에 대한 강건성 (Robustness)

시뮬레이션 결과, 유전체 내 오류 확률 분포에 과분산이 존재하더라도 모델이 평균 오류 확률 $w$ 를 정확하게 추정하는 것으로 확인되었습니다. 즉, 모델은 과분산에 매우 강건 (robust) 합니다.

나. 미지의 $w_t$ 처리 방법 비교

과소평가 vs 과대평가: Trace Sample 의 오류 확률 ( $w_t$ $w_{t}$ ) 을 실제 값보다 낮게 추정하는 것이 (예: $w_t = w_r$ $w_{t} = w_{r}$ 로 가정) 보다 보수적 (conservative) 인 결과를 낳았습니다.
- $w_t$ 를 너무 높게 설정하면, 유전형 불일치를 '오류'로 설명하여 두 사람이 다른 사람이라는 증거 ( $H_2$ ) 를 약화시킬 수 있습니다.
- $w_t$ 를 낮게 설정하면 ( $w_t = w_r$ ), 불일치를 오류가 아닌 '다른 사람'으로 해석하게 되어 증거의 무게 (WoE) 가 0 에 가깝게 유지되거나 보수적으로 나옵니다.
마커 수의 영향: 독립적인 SNP 마커 수가 충분할 때 (50 개 이상), $w_t$ 를 적절히 처리하는 방법들 (적분, 최대화) 은 일관된 WoE (Weight of Evidence) 를 보여주었습니다.
프로파일 우도 최대화의 한계: $H_2$ (서로 다른 개인) 가 참인 경우, 프로파일 우도 최대화 방법은 $w_t$ 를 잘못 추정하여 WoE 의 부호가 잘못될 (양수가 되어 $H_1$ 을 지지하는) 위험이 있었습니다. 특히 마커 수가 적을 때 (50 개) 이 문제가 두드러졌습니다.

다. 시뮬레이션 결과 요약

H1 (동일인) 경우: 모든 방법이 높은 WoE 를 보였으며, 부호 오류는 거의 발생하지 않았습니다.
H2 (서로 다른 개인) 경우:
- $w_t$ 를 실제 값보다 낮게 가정 ( $w_t = w_r$ ) 하거나 사전 분포를 적분하는 방법이 가장 안정적이고 보수적인 결과를 제공했습니다.
- 프로파일 우도 최대화 방법은 일부 H2 사례에서 양의 WoE (잘못된 지지) 를 보였습니다.
- 마커 수가 200 개로 증가하면 모든 방법에서 부호 오류가 사라졌습니다.

4. 의의 및 결론 (Significance & Conclusion)

모델 확장: 기존 wgsLR 모델이 단일 오류 확률만 다룰 수 있었던 한계를 넘어, 품질이 다른 Trace 와 Reference 시료를 동시에 분석할 수 있는 비대칭 오류 모델을 정립했습니다.
실무적 권고:
- Trace Sample 의 품질이 낮아 $w_t$ 를 정확히 알기 어려운 경우, $w_t = w_r$ (Reference Sample 의 오류 확률) 로 가정하는 것이 가장 안전하고 보수적인 접근법입니다. 이는 $w_t > w_r$ 인 실제 상황을 과소평가하여 오류를 '다른 사람'으로 해석하게 함으로써, 잘못된 유죄 판결을 방지하는 효과를 가집니다.
- 프로파일 우도 최대화 방법은 계산이 간단하지만, 특히 마커 수가 적거나 $H_2$ 인 경우 오류가 발생할 수 있으므로 주의가 필요합니다.
소프트웨어 구현: 제안된 모든 방법론은 R 패키지 wgsLR에 구현되어 공개되었습니다.
법의학 적용: STR 분석이 불가능한 저품질 DNA 시료 (휴지모 등) 에 대해 SNP 기반 샷건 시퀀싱 데이터를 통계적으로 엄격하게 해석할 수 있는 기반을 마련했습니다.

요약하자면, 이 연구는 저품질 법의학적 시료의 샷건 시퀀싱 데이터를 해석할 때 발생하는 비대칭적 오류와 불확실성을 통계적으로 처리하는 새로운 프레임워크를 제시하며, $w_t$ 를 보수적으로 (낮게) 추정하는 것이 법의학적 증거 해석에서 가장 안전하다고 결론지었습니다.