Bias and Variance of Adjusting for Instruments

원저자: Hripcsak, G., Anand, T., Chen, H. Y., Zhang, L., Chen, Y., Suchard, M. A., Ryan, P. B., Schuemie, M. J.

게시일 2026-03-15

📖 4 분 읽기☕ 가벼운 읽기

원저자: Hripcsak, G., Anand, T., Chen, H. Y., Zhang, L., Chen, Y., Suchard, M. A., Ryan, P. B., Schuemie, M. J.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

이 논문은 의학 연구, 특히 **"실제 진료 데이터를 이용한 연구"**에서 매우 중요한 질문을 던집니다.

"연구할 때, 어떤 정보들을 고려해야 할까? 모든 정보를 다 넣는 게 나을까, 아니면 중요한 것만 골라 넣는 게 나을까?"

이 질문에 대한 답을 찾기 위해 저자들은 **'도구 (Instrument)'**라는 개념을 중심으로 시뮬레이션 실험을 했습니다. 어렵게 들릴 수 있으니, 맛있는 국을 끓이는 상황에 비유해서 설명해 드릴게요.

1. 상황 설정: 국을 끓이는 연구 (관찰 연구)

가정해 보세요. 여러분은 **"새로운 약 (A) 이 기존 약 (B) 보다 더 효과가 있을까?"**를 연구하고 있습니다. 하지만 무작위로 환자를 나누는 실험이 아니라, 이미 병원에서 처방된 기록만 보고 분석하는 **'관찰 연구'**를 하고 있습니다.

문제점 (교란 요인): 약 A 를 처방받은 환자들이 원래 건강이 더 좋았다면, 약이 좋아서가 아니라 환자 상태가 좋아서 결과가 좋을 수 있습니다. 이를 **'교란 요인 (Confounding)'**이라고 합니다.
해결책 (성향 점수): 연구자들은 "이 환자들은 원래 이런 특징이 있었으니, 비교할 때 이 특징들을 보정하자"라고 계산합니다. 이를 **'성향 점수 (Propensity Score)'**라고 부릅니다.

2. 핵심 갈등: '도구 (Instrument)'의 함정

여기서 **'도구 (Instrument)'**라는 녀석이 등장합니다.

도구의 특징: 이 변수는 약 (처방) 에는 큰 영향을 주지만, 환자 건강 (결과) 에는 전혀 영향을 주지 않습니다.
- 예시: "의사의 성향"이나 "병원 위치"처럼, 약을 처방할지 말지는 결정하지만, 약이 환자를 낫게 하는지에는 직접적인 관계가 없는 것들입니다.

전통적인 학자들의 경고:
"도구를 분석에 포함시키면 안 돼! 오히려 **편향 (Bias)**이 커져서 잘못된 결론을 내게 될 거야. 그리고 계산이 더 복잡해져서 **오차 (Variance)**도 커질 거야."

비유: 국을 끓일 때, 맛과 상관없는 '주방용 가위'를 넣으면 국이 맛이 없어지고, 가위 때문에 국물이 넘칠 수도 있다는 경고입니다.

저자들의 의문 (LSPS 접근법):
"하지만, 우리는 모든 가능한 정보 (수만 개의 데이터) 를 다 넣어서 분석하는 '대규모 성향 점수 (LSPS)' 방식을 쓰고 있습니다. 도구를 하나하나 찾아내서 빼내는 건 너무 어렵고, 중요한 '교란 요인'을 놓칠 수도 있잖아. 도구를 넣는 게 정말 그렇게 치명적일까?"

3. 실험 내용: 국에 가위를 얼마나 넣을까?

저자들은 컴퓨터 시뮬레이션을 통해 다음과 같은 실험을 했습니다.

상황: 약의 효과를 분석하는데, 중요한 '교란 요인'을 보정하지 않은 상태 (맛없는 국) 라고 가정합니다.
변수: 여기에 '도구 (가위)'를 점점 더 강력하게 (약 처방에 더 큰 영향을 주는) 넣었습니다.
조건: 하지만 **'상관관계 0.5'**라는 안전 장치를 두었습니다. (도구가 약 처방과 너무 밀접하게 연결되면 분석을 중단하는 규칙).
결과 측정: 도구를 넣었을 때, 국의 맛 (약의 효과 추정치) 이 얼마나 망가졌는지, 그리고 국물이 얼마나 넘쳤는지 (오차) 를 측정했습니다.

4. 놀라운 결과: 가위는 국을 망치지 않았다!

실험 결과는 매우 흥미로웠습니다.

교란 요인 (진짜 문제) 이 훨씬 더 나빴다: 도구를 넣지 않았을 때, '교란 요인' 때문에 국이 이미 맛이 없었습니다.
도구를 넣어도 영향은 미미함: 도구를 보정해 주었을 때, 국의 맛이 조금 더 변하기는 했지만, 원래 교란 요인 때문에 망가진 정도보다 훨씬 작았습니다.
안전 장치의 효과: 상관관계가 0.5 미만이고, '균형 (Equipoise)'이 잘 잡혀 있다면, 도구를 넣어도 국이 크게 망가지지 않았습니다.
- 비유: "맛없는 국에 가위를 넣으면 국물이 조금 넘치기는 하지만, 국 자체의 맛은 원래 문제 (교란 요인) 가 훨씬 더 심각해. 가위 때문에 국이 완전히 망가질 정도는 아니야."

5. 결론: "모든 것을 넣는 게 더 안전하다"

이 논문의 핵심 메시지는 다음과 같습니다.

도구를 무서워하지 마세요: 연구에서 '도구 (Instrument)'가 섞여 있다고 해서 분석을 포기하거나, 도구를 찾아내서 빼려고 애쓰지 않아도 됩니다.
안전 장치가 있다: LSPS 라는 방법은 **'상관관계 0.5'**와 **'균형 (Equipoise)'**이라는 두 가지 안전 장치를 통해, 위험한 도구가 섞이는 것을 막아줍니다.
포용이 정답: 중요한 '교란 요인'을 놓치는 것보다, 약간의 '도구'가 섞여도 수만 개의 데이터를 모두 넣어서 분석하는 것이 더 정확한 결론을 냅니다.

한 줄 요약:

"국 (연구) 을 끓일 때, 맛없는 원재료 (교란 요인) 를 잡는 게 가장 중요해요. 맛과 상관없는 가위 (도구) 가 조금 섞여도, 안전 장치를 쓰면 국이 망가지지 않아요. 그러니 모든 재료를 다 넣고 끓이는 게 가장 맛있는 국을 만드는 비결입니다!"

이 연구는 의학 연구자들이 **"데이터를 많이 넣으면 오차가 커질까?"**라는 두려움을 덜어주고, 대규모 데이터를 활용한 분석을 더 자신 있게 진행할 수 있도록 도와줍니다.

논문 요약: 도구변수 (Instrument) 보정이 관찰 연구에 미치는 편향과 분산 영향

1. 연구 배경 및 문제 제기 (Problem)

관찰 연구에서 교란 (confounding) 을 해결하기 위해 성향 점수 (Propensity Score, PS) 보정이 널리 사용되지만, 성향 모델에 어떤 공변량 (covariates) 을 포함시켜야 하는지에 대한 논쟁이 지속되어 왔습니다.

쟁점: 모든 가능한 공변량을 포함시키는 접근법과 신중하게 교란변수만 선별하는 접근법 사이의 대립.
도구변수 (Instrument) 의 위험성: 치료 (Treatment) 에는 영향을 미치지만 결과 (Outcome) 에는 직접적인 영향을 미치지 않는 변수를 '도구변수'라고 합니다. 기존 이론에 따르면, 교란이 보정되지 않은 상태에서 도구변수를 보정하면 다음과 같은 문제가 발생합니다.
1. 편향 증폭 (Bias Amplification): 교란으로 인한 편향을 더욱 악화시킵니다.
2. 분산 증가 (Variance Increase): 효과 추정치의 분산이 커져 정밀도가 떨어집니다.
현실적 딜레마: 대규모 성향 점수 (Large-Scale Propensity Score, LSPS) 와 같은 자동화된 방법은 수천 개의 공변량을 포함하여 교란변수를 포착하려 하지만, 이 과정에서 도구변수가 우연히 포함될 가능성이 있습니다. 따라서 "약한 도구변수를 포함하는 것이 교란변수를 놓치는 것보다 나쁜가?"에 대한 정량적 평가가 필요했습니다.

2. 연구 방법론 (Methodology)

이 연구는 시뮬레이션을 통해 LSPS 의 진단 기준 (diagnostics) 하에서 도구변수를 보정했을 때의 편향과 분산 영향을 정량화했습니다.

시뮬레이션 설계:
- 변수 정의: 교란변수 ( $X$ ), 측정된 도구변수 ( $Z$ ), 측정되지 않은 도구변수 ( $U$ ), 치료 ( $T$ ), 결과 ( $Y$ ) 를 정의했습니다.
- 모델 구성: 로지스틱 회귀 모델을 사용하여 다음과 같은 시나리오를 비교했습니다.
  1. Crude Model: 공변량 보정 없음.
  2. Minstr: 도구변수만 보정 (교란이 보정되지 않은 상태).
  3. Mconf: 교란변수만 보정 (참값에 가까운 추정).
  4. Mconf-instr: 교란변수와 도구변수를 모두 보정.
- 파라미터 조절: 도구변수의 강도 ( $B$ ) 를 변화시키면서, 치료 변수의 총 분산을 일정하게 유지하기 위해 측정되지 않은 도구변수의 강도 ( $R$ ) 를 조절했습니다 ( $B^2 + R^2 = \text{constant}$ ).
- LSPS 진단 기준 모사:
  - 상관관계 임계값: 치료와의 피어슨 상관계수가 0.5 이상인 경우 분석을 중단하는 기준을 적용.
  - 균형 (Equipoise): 성향 점수의 선호도 점수 (preference score) 를 계산하여 여러 도구변수의 집합적 영향을 평가.
실험 설정:
- 단일 도구변수 시나리오 및 10 개의 독립적인 도구변수를 가진 시나리오를 수행했습니다.
- 표본 크기는 200,000 으로 설정하여 통계적 안정성을 확보했습니다.

3. 주요 결과 (Key Results)

시뮬레이션 결과는 LSPS 의 진단 기준 내에서 도구변수를 포함하는 것이 예상보다 위험하지 않음을 보여주었습니다.

편향 (Bias):
- 교란변수만 보정한 모델의 추정치 (0.5) 가 참값과 일치했습니다.
- 도구변수만 보정한 모델은 도구변수의 강도가 증가함에 따라 편향이 커졌으나, LSPS 의 임계값 (상관계수 0.5, 균형 0.5) 을 만족하는 범위 내에서는 추가된 편향이 교란변수 자체로 인한 편향보다 작았습니다.
- 특히, 도구변수가 치료 분산에 기여하는 정도가 보정되지 않은 교란변수보다 20 배 이상 크더라도 (강도 $B=4.65$ ), 도구변수 보정으로 인한 편향 증가는 기존 교란 편향의 50% 미만이었습니다.
분산 (Variance):
- 도구변수를 보정하면 분산이 증가하지만, LSPS 임계값 내에서는 이 증가폭이 50% 미만으로 제한되었습니다.
- 10 개의 도구변수를 동시에 보정한 경우에도, 균형 (equipoise) 이 0.5 이상 (심지어 0.475 까지) 일 때 편향은 교란으로 인한 편향을 초과하지 않았으며, 초과 분산도 기준 분산의 50% 를 넘지 않았습니다.
균형 (Equipoise) 의 중요성: 개별 도구변수의 상관관계가 낮더라도 (예: 0.153), 여러 도구변수가 집합적으로 작용할 때 균형 점수를 통해 이를 감지할 수 있음을 확인했습니다.

4. 주요 기여 및 결론 (Contributions & Conclusion)

LSPS 접근법의 타당성 입증: 많은 공변량을 포함하는 대규모 성향 점수 (LSPS) 방식이 수동으로 교란변수를 선별하는 방식보다 우월하다는 기존 실증적 증거를 지지합니다.
도구변수 포함의 위험성 재평가: 문헌에서 제기된 "도구변수 포함은 편향을 가산적으로 증가시킨다"는 이론적 우려와 달리, LSPS 의 진단 기준 (상관계수 < 0.5, 균형 > 0.5) 을 준수한다면 도구변수를 포함하는 것으로 인한 편향과 분산 증가는 교란변수를 누락시키는 것보다 훨씬 작은 비용임을 정량적으로 증명했습니다.
실무적 시사점: 연구자들은 교란변수를 완벽하게 선별하려 애쓰기보다, LSPS 와 같은 자동화된 방법을 사용하여 광범위한 공변량을 포함하되, 상관관계와 균형 진단을 통해 강력한 도구변수를 필터링하는 전략이 더 효과적임을 시사합니다.

5. 의의 (Significance)

이 연구는 관찰 연구에서 성향 점수 모델 구축 시 발생하는 '교란변수 vs 도구변수' 선택의 딜레마에 대한 실증적 해답을 제공합니다. 특히, 완벽한 교란변수 선별의 불가능성을 인정하고, LSPS 와 같은 대규모 데이터 기반 접근법이 진단 기준을 통해 도구변수의 부정적 영향을 효과적으로 통제할 수 있음을 보여줌으로써, 관찰 연구의 방법론적 신뢰성을 높이는 데 기여합니다. 이는 실제 의료 데이터 분석에서 더 넓은 범위의 공변량을 포함하는 것이 오히려 더 정확한 치료 효과 추정을 가능하게 함을 의미합니다.