Inference conditional on selection: a review

이 논문은 데이터에 의존하여 통계적 질문이 결정되는 선택적 추론 (selective inference) 의 필요성을 설명하고, '승자' 추론, 회귀 트리, 클러스터링 등 세 가지 주요 사례를 통해 조건부 보장을 제공하는 다양한 방법론을 검토하고 시뮬레이션 및 단일 세포 RNA 시퀀싱 데이터 적용을 통해 그 유효성을 입증합니다.

Anna Neufeld, Ronan Perry, Daniela Witten

게시일 2026-04-14
📖 5 분 읽기🧠 심층 분석

Each language version is independently generated for its own context, not a direct translation.

데이터로 만든 질문, 데이터로 답할 수 있을까?

"선택적 추론 (Selective Inference)"에 대한 쉬운 설명

이 논문은 현대 과학 연구에서 흔히 발생하는 **'이중 사용 (Double Dipping)'**이라는 문제를 해결하는 방법을 소개합니다. 쉽게 말해, **"데이터를 보다가 흥미로운 패턴을 발견하고, 그 패턴을 증명하기 위해 다시 같은 데이터를 사용하는 것"**이 왜 위험한지, 그리고 어떻게 올바르게 해결할 수 있는지 설명합니다.


1. 문제 상황: "이중 사용"의 함정

상상해 보세요. 여러분이 100 명의 학생의 시험 점수를 분석하고 있습니다.

  • 과거의 방식 (올바른 방법): "A 학급과 B 학급의 평균 점수를 비교해보자"라고 미리 계획을 세우고 데이터를 분석합니다.
  • 현대의 방식 (문제 있는 방법): 데이터를 쭉 훑어보다가 "어? C 학급과 D 학급이 가장 점수 차이가 크네?"라고 발견합니다. 그리고는 **"C 와 D 학급의 점수 차이를 통계적으로 검증해볼까?"**라고 말합니다.

여기서 문제가 생깁니다. C 와 D 학급을 선택한 이유가 바로 그 데이터의 점수 차이 때문이죠. 그런데 그 같은 데이터로 다시 검증을 하면, 마치 주사위를 100 번 던져서 10 번 연속 '6'이 나왔을 때, "이 주사위는 정직하지 않아!"라고 결론 내리는 것과 같습니다. 사실은 우연일 확률이 높지만, 우리가 그 우연을 '특이한 사건'으로 골라냈기 때문에, 통계적 검증은 그 우연을 '진실'인 것처럼 과장해버립니다.

이걸 논문에서는 **"이중 사용 (Double Dipping)"**이라고 부릅니다. 마치 같은 요리 재료를 두 번 써서 요리한 뒤, "이 요리가 정말 맛있어!"라고 주장하는 것과 비슷합니다.

2. 세 가지 예시로 본 문제

논문은 이 문제가 실제로 어떻게 발생하는지 세 가지 예시로 보여줍니다.

  1. 승자의 저주 (Winner's Curse):
    • 상황: 100 개의 새로운 약을 실험했습니다. 그중 가장 효과가 좋았던 '약 A'를 골라냅니다.
    • 문제: '약 A'가 가장 좋게 나온 건 진짜 효과가 좋아서가 아니라, 우연히 가장 좋은 결과가 나온 것일 수 있습니다. 그런데 그 '약 A'의 효과를 다시 같은 데이터로 계산하면, 실제 효과보다 훨씬 과장된 수치가 나옵니다. (가장 높은 점수를 받은 학생이 진짜로 천재인지, 아니면 운이 좋았는지 구분하지 못하는 상황)
  2. 회귀 트리 (Regression Tree):
    • 상황: 환자 데이터를 분석해서 "이런 특징을 가진 환자들"이라는 그룹을 자동으로 찾아냅니다.
    • 문제: 그 그룹이 가진 평균 치료 효과를 계산할 때, 그룹 자체가 데이터에서 '찾아낸' 것이므로, 그 효과를 과장해서 보고하게 됩니다.
  3. 클러스터링 (Clustering):
    • 상황: 세포 데이터를 분석해서 "유사한 세포들"끼리 무리를 짓습니다 (예: 암세포 vs 정상세포).
    • 문제: 이렇게 묶인 그룹들 사이의 차이를 검증할 때, 그룹을 묶은 기준이 바로 데이터이기 때문에, 그 차이를 실제보다 훨씬 확실한 것처럼 잘못 판단합니다.

3. 해결책: "조건부 추론" (Conditional Inference)

이 문제를 해결하기 위해 논문은 **'조건부 추론'**을 제안합니다.

비유로 설명하자면:

  • 기존 방식: "이 주사위를 던져서 6 이 나왔으니, 이 주사위는 6 이 나올 확률이 100% 야!"라고 말합니다. (데이터 전체를 다 보고 결론 내림)
  • 조건부 추론: "우리가 6 이 나올 것 같아서 이 주사위를 골랐다는 사실을 인정하고, 그 조건 (6 이 나올 것 같았음) 을 고려해서 다시 확률을 계산하자"라고 말합니다.

즉, **"데이터를 보고 무엇을 선택했는지 (Selection) 를 인정하고, 그 선택 과정을 통계 계산에 반영하자"**는 것입니다. 이렇게 하면, 우연히 발견된 패턴을 진실인 것처럼 착각하는 것을 막을 수 있습니다.

4. 해결 방법의 종류 (요리법 비교)

논문은 이 문제를 해결하는 여러 방법을 소개합니다. 마치 같은 요리를 하더라도 재료를 나누는 방식이 다르듯, 데이터를 어떻게 나누고 사용하는지에 따라 방법이 나뉩니다.

  1. 샘플 분할 (Sample Splitting):

    • 방식: 데이터를 반으로 나눕니다. 절반은 '그룹 찾기 (선택)'에 쓰고, 나머지 절반은 '검증 (추론)'에 씁니다.
    • 장점: 매우 간단하고 확실합니다.
    • 단점: 데이터가 반으로 줄어듭니다. 마치 요리 재료를 반만 써서 맛을 보는 것과 같아, 결과가 덜 정확해질 수 있습니다.
  2. 데이터 얇게 만들기 (Data Thinning):

    • 방식: 데이터를 반으로 자르는 게 아니라, 데이터의 '정보'를 반으로 쪼개서 사용합니다. (예: 소금기 있는 국물을 반으로 나누어 한쪽은 맛을 보고, 한쪽은 간을 맞춘다)
    • 장점: 데이터를 완전히 버리지 않고 효율적으로 사용합니다.
    • 단점: 특정 수학적 가정 (정규분포 등) 을 만족해야만 쓸 수 있습니다.
  3. 완전 조건부 추론 (Full CSI):

    • 방식: 데이터를 다 쓰되, "우리가 이 그룹을 선택한 이유"를 수학적으로 완벽하게 계산에 포함시킵니다.
    • 장점: 데이터를 가장 많이 활용합니다.
    • 단점: 계산이 매우 복잡하고, 선택이 애매할 때는 결과가 너무 넓게 (무의미하게) 나올 수 있습니다.
  4. 무작위화 조건부 추론 (Randomized CSI):

    • 방식: 데이터에 약간의 '노이즈 (소음)'를 섞어서 선택 과정을 부드럽게 만든 뒤, 그걸로 검증합니다.
    • 장점: 계산이 복잡하지 않으면서도 데이터를 잘 활용합니다.
    • 단점: 약간의 무작위성 (랜덤성) 을 도입해야 합니다.

5. 실제 적용: 세포 연구 (단일 세포 RNA 시퀀싱)

논문은 이 방법들을 실제 의학 데이터 (세포 연구) 에 적용해 보았습니다.

  • 결과: 기존의 잘못된 방법 (이중 사용) 은 많은 가짜 발견 (False Discovery) 을 만들어냈습니다. 하지만 새로운 방법들 (데이터 얇게 만들기, 조건부 추론 등) 을 쓰면, 가짜 발견을 줄이면서도 진짜 중요한 세포 차이를 찾아낼 수 있었습니다.

6. 결론: 과학자들이 무엇을 알아야 할까?

이 논문의 핵심 메시지는 다음과 같습니다.

"데이터를 보고 질문을 만들었다면, 그 질문에 답할 때도 그 '질문 만들기 과정'을 고려해야 한다."

과학자들은 이제부터:

  1. 데이터를 보다가 흥미로운 것을 발견하면, 그것을 '새로운 발견'이라고 바로 믿지 말아야 합니다.
  2. 그 발견이 우연인지, 진짜인지 확인하기 위해 선택적 추론 (Selective Inference) 방법을 사용해야 합니다.
  3. 데이터의 양과 계산의 복잡성 사이에서 균형을 잡는 방법을 선택해야 합니다.

이 논문은 과학 연구의 '신뢰성'을 높이기 위해, 우리가 데이터를 대하는 태도를 바꿔야 한다고 경고하고 있습니다. 마치 주사위를 던져서 6 이 나왔을 때, "이 주사위는 6 이 나오게 만들어졌어"라고 말하지 않고, "우리가 6 을 골랐으니, 그걸 고려해서 다시 계산해보자"라고 생각하는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →