Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Each language version is independently generated for its own context, not a direct translation.

🍽️ 상황: 새로운 레시피를 테스트하는 식당

온라인 동영상 플랫폼 (예: 유튜브, 틱톡, 위챗 채널) 은 마치 거대한 식당 같습니다.

크리에이터 (요리사): 영상을 만드는 사람.
시청자 (손님): 영상을 보는 사람.
알고리즘 (메뉴판): 어떤 요리를 어떤 손님에게 추천할지 결정하는 시스템.

식당 주인 (플랫폼) 은 "새로운 메뉴 추천 시스템 (새 알고리즘) 을 도입하면 손님이 더 많이 만족할까?"라고 궁금해합니다.

❌ 문제: 잘못된 실험 (기존 방식의 함정)

기존에는 이렇게 실험을 했습니다.

요리사 A, B, C... 를 무작위로 뽑습니다.
A, B 는 **새로운 메뉴판 (Treatment)**을 쓰고, C, D 는 **기존 메뉴판 (Control)**을 쓰게 합니다.
손님이 들어오면, 각 요리사가 만든 요리를 추천합니다.
새 메뉴판을 쓴 요리사의 요리가 더 많이 팔렸나요? -> "아, 새 시스템이 좋구나!"라고 결론 내립니다.

하지만 여기서 치명적인 오류가 발생합니다.

이것은 마치 **"한 테이블에 요리사 A 와 C 가 함께 앉아 경쟁하는 상황"**과 같습니다.

새로운 메뉴판 (A) 이 "이 요리는 정말 맛있어!"라고 크게 외치면, 손님은 A 의 요리를 먼저 선택합니다.
그 결과, 기존 메뉴판 (C) 을 쓴 요리사는 아무리 요리를 잘해도 손님이 오지 못해 기회 (노출) 를 잃게 됩니다.

이것을 **'알고리즘 간섭 (Algorithmic Interference)'**이라고 합니다.

오류 1 (기회 박탈): 새 시스템이 유리하게 작용해서, 경쟁자인 기존 시스템의 요리사들이 아예 손님을 못 만나게 됩니다. (실제 노출 비율이 실험 설계 비율과 달라짐)
오류 2 (손님 선별): 새 시스템이 "맛있는 음식을 좋아하는 VIP 손님"에게만 집중해서 요리를 추천합니다. 반면 기존 시스템은 "평범한 손님"만 만나게 됩니다. 그러면 새 시스템이 더 잘한 게 아니라, 처음부터 손님이 좋은 편이었던 것일 뿐입니다.

결과: 기존 방식 (단순 평균 비교) 으로 실험하면, 실제로는 나쁜 시스템이 좋은 것처럼 착각하게 되어, 식당이 망할 수도 있습니다.

✅ 해결책: 구조화된 신경망과 '교정'된 계산기

저자들은 이 문제를 해결하기 위해 두 가지 모델을 결합한 새로운 방법을 제안했습니다.

1. "경쟁 상황을 이해하는 모델" (알고리즘 선택 모델)

이 모델은 "요리사 A 와 C 가 같은 테이블에 앉았을 때, 손님이 A 를 선택할 확률이 얼마나 되는지"를 수학적으로 계산합니다.

단순히 "누가 더 많이 팔렸나?"를 보는 게 아니라, **"누가 어떤 손님에게 추천될 기회를 가졌는가?"**를 시뮬레이션합니다.
여기서는 **신경망 (AI)**을 써서 복잡한 손님 취향과 요리사의 특징을 분석합니다.

2. "손님의 반응을 예측하는 모델" (시청자 반응 모델)

"손님이 요리를 맛봤을 때, 얼마나 만족할까?"를 예측합니다.

이 역시 AI 를 통해 학습합니다.

3. "편향을 잡아주는 마법 지팡이" (Debiased Estimator)

이 두 모델을 합쳐서 **"만약 모든 요리사가 새 메뉴판을 썼다면, 모든 손님이 기존 메뉴판을 썼다면 어땠을까?"**를 가상으로 시뮬레이션합니다.

여기서 핵심은 이중 기계 학습 (Double Machine Learning) 기법입니다.

보통 AI 모델은 완벽하지 않아서 오차가 생깁니다. 이 오차가 최종 결론을 왜곡할 수 있습니다.
저자들은 이 오차를 **수학적으로 보정 (Debias)**하는 공식을 만들었습니다. 마치 저울에 오차가 있을 때, 그 오차만큼을 빼주는 정밀한 저울을 만든 것과 같습니다.

📊 실제 검증: 위챗 (Weixin) 에서의 실험

저자들은 중국 최대 메신저인 '위챗'의 짧은 영상 플랫폼에서 이 방법을 실제로 테스트했습니다.

비교 대상:
- 기존 방식 (DIM): 단순히 팔린 양을 비교.
- 제안 방식 (Debiased): 위에서 설명한 복잡한 계산 방식.
- 진짜 정답 (Ground Truth): 비용이 엄청나게 많이 들지만, '손님'과 '요리사'를 완전히 분리해 경쟁을 없앤 실험 (이게 진짜 정답임).
결과:
- 기존 방식: "새 시스템이 좋아요! 매출이 20% 늘었어요!"라고 외쳤습니다. (하지만 이는 경쟁자를 밀어낸 결과일 뿐, 진짜 효과가 아님)
- 진짜 정답: "아니요, 새 시스템은 오히려 매출을 10% 떨어뜨렸습니다."
- 제안 방식: "맞습니다, 새 시스템은 나쁩니다."라고 정확하게 예측했습니다.

결론: 기존 방식을 믿고 새 시스템을 도입했다면, 플랫폼은 실제로는 나쁜 알고리즘을 전 세계에 배포해서 큰 손해를 볼 뻔했습니다.

💡 한 줄 요약

"경쟁자가 있는 상황에서는 단순히 '누가 더 많이 팔렸나'를 비교하면 안 됩니다. 누가 어떤 기회를 가졌는지, 그리고 그 기회가 어떻게 분배되었는지를 AI 로 정교하게 계산하고 보정해야만, 진짜 성공한 전략을 찾을 수 있습니다."

이 연구는 온라인 플랫폼이 알고리즘을 업데이트할 때, 거짓된 데이터에 속아 나쁜 결정을 내리는 것을 막아주는 중요한 나침반이 되어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 온라인 플랫폼 (예: 웨이신 채널) 은 알고리즘을 통해 프로모션 트래픽을 할당하며, 알고리즘 업데이트 전후의 효과를 평가하기 위해 주로 크리에이터 측 무작위 실험 (Creator-side Randomization) 을 수행합니다.
핵심 문제 (알고리즘 간섭): 크리에이터 간 경쟁으로 인해, 실험군 (Treatment) 과 대조군 (Control) 크리에이터가 동일한 노출 기회 (Consideration Set) 를 두고 경쟁합니다.
- 처리된 크리에이터의 알고리즘 점수가 변하면, 다른 크리에이터의 노출 확률에 영향을 미칩니다.
- 이는 SUTVA (Stable Unit Treatment Value Assumption) 를 위반하며, 개체의 결과가 자신의 처리 상태뿐만 아니라 다른 개체의 처리 상태에도 의존하게 만듭니다.
기존 방법의 한계:
- 차이 평균 (Difference-in-Means, DIM) 추정량: 처리군과 대조군의 결과를 단순히 비교하는 기존 방식은 심각한 편향을 보입니다.
- 편향의 원인:
  1. 콘텐츠 노출 편향 (Content Exposure Bias): 처리된 항목이 더 높은 점수를 받아 대조군 항목을 밀어내고 (Crowding out) 실제 노출 비율이 무작위 할당 비율과 달라집니다.
  2. 시청자 선택 편향 (Viewer Selection Bias): 알고리즘이 특정 유형의 시청자에게 더 효과적일 경우, 처리군과 대조군 항목이 서로 다른 시청자 집단에 노출되어 결과 비교가 왜곡됩니다.
- 결과: 이러한 편향으로 인해 하위 알고리즘을 상위로 잘못 판단하거나, 그 반대의 오류를 범할 수 있습니다.

2. 방법론 (Methodology)

저자들은 이중 편향 제거 기계학습 (Double Machine Learning, DML) 프레임워크를 확장하여, 알고리즘 간섭을 명시적으로 모델링하는 구조적 준모수 (Structured Semiparametric) 접근법을 제안합니다.

A. 모델링 프레임워크

알고리즘 선택 모델 (Algorithm Choice Model):
- 노출 확률을 결정하는 경쟁 메커니즘을 모델링합니다.
- 반구조적 (Semi-parametric) 구조:
  - 구조적 부분: 다항 로짓 (Multinomial Logit) 모델을 사용하여 경쟁적 할당 구조를 포착합니다.
  - 유연한 부분: 신경망 (Neural Network) 을 사용하여 시청자 - 콘텐츠 쌍에 따른 복잡한 점수 매핑 ( $s_0$ : 기준점, $s_1$ : 처리 효과) 을 학습합니다.
- 이 모델은 처리 상태가 다른 항목들의 점수에 어떻게 영향을 미치는지 (간섭) 를 명시적으로 반영합니다.
시청자 반응 모델 (Viewer Response Model):
- 노출이 발생한 후 시청자의 반응 (참여, 구매 등) 을 예측합니다.
- 유연한 신경망을 사용하여 노출된 항목과 시청자 특성에 따른 결과를 예측합니다.
반사실적 시뮬레이션 (Counterfactual Analysis):
- 학습된 모델을 사용하여 전역 처리 (모든 크리에이터가 새 알고리즘 사용) 와 전역 통제 (기존 알고리즘 유지) 시나리오 하의 노출 확률과 반응을 시뮬레이션합니다.
- 이를 통해 전역 처리 효과 (Global Treatment Effect, GTE) 를 추정합니다.

B. 편향 제거 추정량 (Debiased Estimator)

이중 편향 제거 (Double/Debiased Machine Learning): 신경망과 같은 유연한 기계학습 모델은 $O(\sqrt{n})$ 보다 느린 수렴 속도를 가지므로, 단순 대입 (Plug-in) 방식은 편향된 추론을 초래합니다.
Neyman Orthogonality 활용: 저자들은 편향 제거 항 (Debiasing term) 을 추가하여, nuisance 함수 (점수 및 반응 모델) 의 추정 오차가 1 차적으로 처리 효과 추정에 영향을 미치지 않도록 합니다.
상관된 표본에 대한 점근적 이론 확장:
- 기존 DML 이론은 독립 동일 분포 (i.i.d.) 를 가정하지만, 이 연구에서는 중첩된 고려 집합 (Overlapping Consideration Sets) 으로 인해 표본 간 상관관계가 발생합니다.
- 마팅갈 (Martingale) 극한 정리를 활용하여 상관된 표본 하에서도 추정량이 $\sqrt{n}$ -일관성 (consistency) 을 가지고 정규 분포를 따른다는 것을 증명했습니다.

3. 주요 기여 (Key Contributions)

실질적 기여:
- 비용이 많이 드는 양면 무작위 실험 (Double-sided Randomization, 시청자와 크리에이터 모두를 분리) 없이도, 표준적인 크리에이터 측 실험 데이터로부터 편향 없는 전역 처리 효과를 추정할 수 있는 실용적인 도구를 제공합니다.
- 플랫폼이 알고리즘 업데이트로 인한 잘못된 비즈니스 의사결정을 방지할 수 있게 합니다.
방법론적 기여:
- 구조적 신경망 프레임워크: 알고리즘 간섭 메커니즘을 구조적 모델 (선택 모델) 과 데이터 기반 모델 (신경망) 로 분리하여 모델링했습니다.
- 상관된 표본을 위한 DML 확장: i.i.d. 가정이 깨진 환경 (마케팅, 패널 데이터 등) 에서도 유효한 통계적 추론을 가능하게 하는 이론적 기반을 마련했습니다.

4. 실험 결과 (Results)

A. 몬테카를로 시뮬레이션

비교 대상: DIM (Horvitz-Thompson, Hájek), 순수 딥러닝 (Pure Deep Learning), 성향 점수 기반 (IPW, AIPW) 추정량.
결과:
- 제안된 편향 제거 (DB) 추정량: 편향이 거의 없으며 (Negligible bias), 신뢰구간이 실제 변동성을 정확히 반영합니다.
- DIM 추정량: 간섭으로 인해 심각한 편향을 보이며, 표준 오차를 과소평가합니다.
- 순수 딥러닝: 반사실적 상황으로의 외삽 (Extrapolation) 실패로 편향이 발생합니다.
- IPW/AIPW: 고려 집합 크기가 커질수록 분산이 기하급수적으로 증가하여 불안정합니다.

B. 현장 실험 (Weixin Channels)

설계: 3 개의 하위 우주 (Sub-universe) 로 시장을 분리하여, 하나는 크리에이터 측 실험, 나머지 두 개는 각각 전역 처리/통제 환경 (양면 실험) 으로 운영했습니다. 양면 실험 결과를 Ground Truth로 사용했습니다.
간섭 증거 확인:
- 할당 비율 (50%) 과 실제 노출 비율 (56%) 의 불일치 (콘텐츠 노출 편향).
- 처리군과 대조군에 노출된 시청자 특성의 체계적 차이 (시청자 선택 편향).
추정 결과:
- Outcome 2 (중요 지표): Ground Truth 는 통계적으로 유의한 부정적 효과를 보였습니다.
  - 제안된 DB 추정량: Ground Truth 와 일치하는 부정적 효과를 정확히 포착.
  - 기존 방법 (DIM, PDL): 모두 양적 효과로 잘못 추정하거나 극단적인 값을 보임.
- Outcome 1: Ground Truth 는 효과가 없었으나, 기존 방법들은 유의한 양적 효과로 잘못 판단.
- 결론: 제안된 방법은 Ground Truth 와 일치하는 유일한 추정량이었으며, 다른 방법들은 비즈니스 의사결정을 잘못 이끌 수 있는 위험을 안고 있습니다.

5. 의의 및 결론 (Significance)

비즈니스적 의의: 플랫폼은 고비용의 양면 실험을 매번 수행할 필요 없이, 기존 크리에이터 측 실험 데이터를 활용하여 알고리즘 업데이트의 효과를 신뢰할 수 있게 평가할 수 있습니다. 이는 알고리즘 배포 실패로 인한 막대한 기회비용을 절감합니다.
학술적 의의:
- 알고리즘 간섭이 존재하는 디지털 마켓플레이스 환경에서의 인과 추론 문제를 해결했습니다.
- 상관된 표본 데이터에 대한 이중 편향 제거 기계학습의 이론적 기반을 확장하여, 향후 패널 데이터나 시장 환경 연구에 적용 가능한 새로운 길을 열었습니다.
요약: 이 연구는 단순한 통계적 보정을 넘어, 알고리즘의 경쟁적 할당 메커니즘을 구조적으로 이해하고 신경망 기술과 결합함으로써, 복잡한 디지털 환경에서의 인과 추론 정확도를 획기적으로 높였습니다.