Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 상황: 사람과 로봇이 섞인 거대한 파티

생각해 보세요. 거대한 온라인 파티가 열렸습니다. 여기에는 실제 인간과 인간처럼 행동하는 AI 로봇이 섞여 있습니다. 문제는 파티 주최자 (플랫폼) 가 **"누가 사람이고 누가 로봇인지 전혀 모른다"**는 점입니다.

상황: 로봇들은 사람과 똑같이 말하고, 사람들과 대화하며, 서로 영향을 주고받습니다.
목표: 주최자는 "우리 파티에 새로운 메뉴 (예: 성공 스토리) 를 소개했을 때, 진짜 인간들의 기분이 어떻게 변했는지" 알고 싶습니다.
문제: 로봇들은 그 메뉴를 싫어해서 기분이 나빠지고, 인간들은 좋아해서 기분이 좋아집니다. 하지만 둘이 섞여 있으니, 전체 평균을 보면 **"아무 변화도 없는 것"**처럼 보입니다. (한 명은 웃고, 한 명은 울어서 평균은 무표정인 셈이죠.)

기존의 통계 방법들은 이 '평균'만 보다가, 인간에게 실제로 일어난 큰 변화를 놓쳐버립니다.

🔍 2. 해결책: '마법 안경'과 '그룹 나누기'

저자들은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안합니다.

① '마법 안경' (확률적 정보)

우리는 로봇과 사람을 100% 구별할 수는 없지만, **"이 사람은 80% 확률로 인간일 거야", "저 사람은 20% 확률로 인간일 거야"**라고 추측할 수 있는 도구 (AI 분류기) 가 있다고 가정합니다.

비유: 안경을 쓰면 얼굴은 흐릿하게 보이지만, "이쪽은 사람 냄새가 좀 나고, 저쪽은 로봇 냄새가 좀 난다"는 정도는 알 수 있는 상황입니다.

② '그룹 나누기' (서로 다른 조건의 실험실)

이제 이 안경을 이용해 사람들을 특징이 다른 여러 그룹으로 나눕니다.

그룹 A: 로봇 냄새가 많이 나는 그룹 (로봇 비율 높음)
그룹 B: 사람 냄새가 많이 나는 그룹 (인간 비율 높음)
그룹 C: 중간 정도인 그룹

각 그룹에게 **다른 양의 '새로운 메뉴 (처치)'**를 제공합니다. 예를 들어, 그룹 A 에겐 메뉴를 전혀 주지 않고, 그룹 B 에겐 많이 줍니다.

📈 3. 원리: 패턴을 통해 정체를 파악하다

이제 중요한 마법이 일어납니다.

다른 반응: 로봇이 많은 그룹과 사람이 많은 그룹은 메뉴에 대해 완전히 다르게 반응합니다. (로봇은 싫어하고, 사람은 좋아하니까요.)
수학으로 연결: 연구자들은 이 서로 다른 그룹들의 반응 데이터를 수학적으로 분석합니다. 마치 세 개의 다른 각도에서 찍은 사진을 합쳐서 3D 입체 영상을 만드는 것처럼요.
결과 도출: "아, 로봇이 많은 그룹에서는 반응이 안 좋았지만, 사람이 많은 그룹에서는 반응이 좋았네? 그럼 순수하게 인간에게만 적용된 효과는 이 정도일 거야!"라고 역산해냅니다.

이 과정을 통해, 정체를 알 수 없는 로봇과 사람이 섞여 있더라도, 오직 '인간'에게만 일어난 순수한 효과를 정확히 찾아낼 수 있습니다.

🧪 4. 실험 결과: LLM(거대 언어 모델) 로 증명

저자들은 이 이론이 실제로 통하는지 확인하기 위해, 인간과 AI 가 섞인 가상의 소셜 미디어를 만들어 실험했습니다.

상황: AI 는 "세상은 슬퍼"라는 부정적인 글을 쓰고, 인간은 "세상은 희망차"라는 긍정적인 글을 썼습니다.
실험: "성공 스토리"라는 긍정적인 콘텐츠를 보여줬습니다.
결과:
- 기존 방법: "전체 평균은 거의 변하지 않았네." (실패)
- 이 방법: "아! 인간들은 정말 행복해졌고, 로봇들은 오히려 기분이 상했구나!" (성공)

💡 5. 결론: 왜 이것이 중요한가?

이제 인터넷에는 AI 가 사람처럼 행동하는 경우가 너무 많습니다. 우리가 "이 정책이 정말 사람들에게 도움이 되는가?"를 판단할 때, AI 의 반응까지 섞여 있으면 오해할 수 있습니다.

이 논문은 **"누가 사람인지 정확히 몰라도, 그들이 섞여 있는 비율만 알면, 사람만 위한 효과를 정확히 측정할 수 있다"**는 것을 증명했습니다. 이는 앞으로 AI 가 넘쳐나는 세상에서, 진짜 인간의 반응을 제대로 이해하고 정책을 세우는 데 필수적인 도구가 될 것입니다.

한 줄 요약:

"사람과 로봇이 섞여 있어 구별이 안 돼도, 서로 다른 조건의 그룹을 만들어 반응을 비교하면 오직 '사람'에게 일어난 진짜 변화를 수학적으로 찾아낼 수 있다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 인간과 AI 에이전트가 혼재하여 상호작용하는 온라인 플랫폼 (예: 소셜 미디어, 데이트 앱 등) 에서의 실험 설계 및 인과 효과 추정에 관한 문제를 다룹니다. 기존 네트워크 간섭 (Network Interference) 연구와 달리, 이 연구는 다음과 같은 두 가지 핵심적인 불확실성을 동시에 고려합니다.

관찰되지 않은 단위 유형 (Unobserved Unit Types): 플랫폼 운영자는 각 사용자가 인간인지 AI 봇인지 개별적으로 알 수 없습니다. 대신, 각 단위 $i$ 에 대해 인간일 확률 $Q_i$ (Prior) 만 알려져 있습니다.
관찰되지 않은 상호작용 네트워크 (Unobserved Interaction Network): 사용자 간의 상호작용 구조 (누가 누구와 상호작용하는지) 가 완전히 관찰되지 않거나 복잡하게 매핑되어 있습니다.
목표 (Goal): 전체 인구의 평균 효과가 아닌, 인간 사용자에만 국한된 인과 효과 (Human-specific Causal Effect, H-TTE) 를 추정하는 것입니다. AI 와 인간의 반응이 상반될 경우 (예: AI 는 부정적, 인간은 긍정적), 전체 평균 효과는 0 에 수렴하여 실제 인간에 대한 효과를 감추게 됩니다.

2. 방법론 (Methodology)

저자들은 인과 메시지 전달 (Causal Message Passing, CMP) 프레임워크를 확장하여, 단위 유형이 불확실한 환경에 적용 가능한 새로운 접근법을 제시했습니다.

2.1. 모델링 가정

결과 동역학 모델 (Outcome Dynamics): 각 사용자의 결과 $Y_t^i$ $Y_{t}^{i}$ 는 기저 효과, 직접적인 치료 효과, 그리고 다른 사용자들의 과거 결과 및 치료 상태에 의한 간섭 효과의 합으로 모델링됩니다.
- 모델 파라미터는 인간 ( $H$ ) 과 AI ( $A$ ) 유형에 따라 다르게 설정됩니다 (예: $\tau_H, \tau_A$ ).
- 간섭 가중치 ( $A_{ij}$ ) 는 수신자의 유형에 따라 가우시안 분포를 따르며, $N$ (인구 크기) 에 비례하여 스케일링됩니다.
선험적 지식 (Prior Knowledge): 각 사용자의 인간일 확률 $Q_i$ 는 알려져 있으며, 이는 분류기 (Classifier) 의 출력 등으로 추정된다고 가정합니다.

2.2. 실험 상태 진화 (Experimental State Evolution, ESE)

핵심 이론적 기여는 고차원의 개별 단위 동역학을 저차원의 표본 평균 (Sample Mean) 상태 진화 방정식으로 축소하는 것입니다.

집단별 평균: 충분히 큰 하위 집단 (Subpopulation) $S$ 내에서의 평균 결과는 개별 사용자의 정체성이 아니라, 해당 집단의 평균 인간 구성 비율 ( $q_S = \frac{1}{|S|}\sum Q_i$ ) 과 평균 치료 노출률 ( $\pi_S$ ) 에만 의존합니다.
결정론적 한계: 인구 규모 $N \to \infty$ 일 때, 표본 평균 결과는 확률적으로 수렴하며, 그 수렴 값은 $q_S$ 와 $\pi_S$ 의 함수로 표현되는 결정론적 상태 진화 방정식을 따릅니다.

2.3. 추정 알고리즘 (Algorithm 1)

H-TTE 를 추정하기 위한 3 단계 알고리즘을 제안합니다:

하위 집단 구성 (Subpopulation Construction):
- $Q_i$ 값을 기준으로 사용자를 층화 (Stratify) 하여 인간 비율이 다른 여러 그룹을 만듭니다.
- 각 그룹 내에서 치료 노출 이력이 다른 서브그룹을 생성하여, 구성 비율 ( $q$ ) 과 치료 노출 ( $\pi$ ) 에 모두 변이 (Variation) 를 부여합니다.
- 중요: 결과 데이터 ( $Y$ ) 를 사용하지 않고 오직 $Q_i$ 와 치료 할당 ( $W$ ) 만을 사용하여 하위 집단을 구성함으로써 선택 편향을 방지합니다.
계수 추정 (Coefficient Estimation):
- 생성된 하위 집단들의 평균 결과 궤적을 관측합니다.
- ESE 방정식을 데이터에 피팅하여 모델 파라미터 ( $\delta_H, \tau_H, \alpha, \beta, \gamma$ 등) 를 추정합니다.
반사실적 예측 (Counterfactual Projection):
- 추정된 파라미터를 사용하여 "전체 집단이 치료된 경우"와 "전체 집단이 대조군인 경우"의 시나리오를 시뮬레이션합니다.
- 이때 인간 구성 비율을 $q_S = 1$ (인간만 존재) 로 고정하여 인간 전용 총 치료 효과 (H-TTE) 를 계산합니다.

3. 주요 기여 (Key Contributions)

이론적 식별 가능성 (Identification): 단위 유형과 네트워크 구조가 관찰되지 않더라도, 인구 구성에 대한 분포적 지식 (Distributional Knowledge, 즉 $Q_i$ 의 분포) 만 있으면 인간 특유의 인과 효과를 일관성 있게 (Consistently) 식별할 수 있음을 증명했습니다.
새로운 프레임워크 확장: 기존 CMP 프레임워크를 동질적인 집단에서 이질적인 (Human-AI 혼재) 집단으로 확장하여, 유형별 반응 차이를 포착하면서도 네트워크 간섭을 통제하는 방법을 제시했습니다.
실용적 추정 알고리즘: 복잡한 개별 단위 데이터를 필요로 하지 않고, 집계된 통계량과 사전 확률만으로도 정확한 추정이 가능하도록 하는 효율적인 알고리즘을 개발했습니다.
LLM 기반 시뮬레이션 검증: 대규모 언어 모델 (LLM) 을 사용하여 인간과 AI 의 행동을 구분되게 시뮬레이션한 환경을 구축하고, 제안된 방법이 실제 데이터에서 정답 (Ground Truth) 을 얼마나 잘 복원하는지 검증했습니다.

4. 실험 결과 (Results)

시뮬레이션 환경: 200 명의 사용자 (50% 인간, 50% AI) 가 참여하는 데이트 플랫폼을 시뮬레이션했습니다. 인간은 긍정적/중립적 반응을, AI 봇은 냉소적/불만 표현을 하도록 프롬프트를 설계했습니다. 치료는 "성공 스토리" 게시물을 노출하는 것이었습니다.
결과 패턴:
- 인간: 치료 (성공 스토리) 로 인해 참여도가 크게 증가 (+0.5).
- AI: 치료로 인해 참여도가 감소 (-0.4).
- 전체 평균: 두 효과가 상쇄되어 전체 평균 효과는 거의 0 에 가까웠습니다.
성능 비교:
- 제안된 방법 (Algorithm 1): 인간 특유의 효과 (+0.5) 를 정확하게 복원했습니다. 분류기 정확도 ( $a=0.8$ ) 가 80% 일 때 평균 절대 오차 (MAE) 가 0.037 로 매우 낮았습니다.
- 기존 방법 (Baselines):
  - 단순 차이법 (DIM) 이나 기존 CMP 모델은 전체 평균 효과 (약 0) 를 추정하거나, 부호까지 잘못 예측했습니다. 이는 AI 와 인간의 상반된 반응이 상쇄되어 인간 효과를 포착하지 못했기 때문입니다.
- 민감도 분석: 분류기 정확도가 낮아질수록 ( $a=0.7$ ) 오차는 증가하지만, 여전히 유의미한 추정이 가능했습니다.

5. 의의 및 결론 (Significance & Conclusion)

AI 시대의 실험 설계: AI 에이전트가 인간 사용자와 혼재하는 디지털 플랫폼이 보편화됨에 따라, 기존 통계적 방법으로는 인간 사용자의 실제 반응을 측정하기 어렵다는 문제를 해결했습니다.
데이터 효율성: 개별 사용자의 정체성을 알 필요 없이, 확률적 정보 (Prior) 만으로도 신뢰할 수 있는 인과 추론이 가능함을 보여주어, 프라이버시 보호와 데이터 수집 비용 절감 측면에서도 의미가 있습니다.
정책적 함의: 플랫폼 운영자가 AI 봇의 간섭을 배제하고 인간 사용자에게 미치는 정책의 효과를 정확히 평가할 수 있는 이론적, 실용적 도구를 제공했습니다.

요약하자면, 이 논문은 관찰되지 않은 AI 와 인간의 혼재 환경에서 네트워크 간섭과 유형 이질성을 동시에 고려하여 인간 중심의 인과 효과를 추정할 수 있는 새로운 이론적 틀과 실증적 방법을 제시한 획기적인 연구입니다.