Causal Inference with Generative Artificial Intelligence: Application to… — 쉬운 설명

당신이 이야기 속의 특정 세부 사항이 사람들의 감정에 어떻게 영향을 미치는지 밝혀내려는 탐정이라고 상상해 보세요. 예를 들어, 다음과 같은 질문을 던지고 싶습니다: 군 경력이 있는 것이 유권자들이 정치인을 더 좋아하게 만드는가?

문제는 현실 세계의 이야기들이 매우 복잡하다는 점입니다. 군 경력이 있는 정치인은 우연히 나이가 더 많거나, 교육 수준이 다르거나, 혹은 자신의 전기(biography)를 더 감성적인 어조로 썼을 수도 있습니다. 만약 당신이 단순히 무작위로 추출한 두 개의 전기를 비교한다면, 유권자들이 그 정치인을 좋아하게 된 이유가 '군 경력' 때문인지 아니면 '교육 수준' 때문인지 구분할 수 없습니다. 과학에서는 이러한 복잡한 추가 요소들을 "교란 요인(confounders)"이라고 부릅니다.

전통적으로 연구자들은 컴퓨터를 이용해 텍스트를 "읽고" 교란 요인이 무엇인지 추측함으로써 이 문제를 해결하려 노력해 왔습니다. 하지만 이는 마치 먼지가 어디에 있는지 추측하며서 더러운 창문을 닦으려는 것과 같습니다. 어렵고, 느리며, 종종 부정확합니다.

이 논문은 **GPI (Generative-AI Powered Inference, 생성형 AI 기반 추론)**라고 불리는 새로운 도구를 소개합니다. 이 도구가 어떻게 작동하는지 쉬운 비유를 통해 설명해 보겠습니다.

마법의 복사기 (GenAI)

연구자들은 단순히 기존의 이야기를 읽는 대신, "마법의 복사기"(대규모 언어 모델, 즉 LLM)를 사용하여 자신들을 위해 이야기를 직접 쓰게 만듭니다.

프롬프트(명령어): 연구자는 기계에게 이렇게 말합니다: "군 경력이 있는 정치인의 전기를 써줘." 그다음 기계에게 말합니다: "군 경력이 없는 정치인의 전기를 써줘."
비밀 설계도: 여기에 초능력이 있습니다. AI가 이야기를 쓸 때, 단순히 단어들을 내뱉는 것이 아니라, 자신이 쓴 내용에 대한 정교하고 숨겨진 "내부 설계도"(수학적 표현)를 함께 만들어냅니다.
기술: AI가 이야기를 썼기 때문에, 연구자들은 이 완벽하고 숨겨진 설계도에 접근할 수 있습니다. 연구자들은 AI가 군 경력을 표현하기 위해 텍스트에 무엇을 넣었는지, 그리고 교육이나 어조와 같은 다른 요소들을 위해 무엇을 넣었는지 정확히 알 수 있습니다.

"디컨파운더(Deconfounder, 교란 제거기)" (필터)

연구자들은 이 완벽한 설계도를 사용하여 **디컨파운더(Deconfounder)**라는 특별한 필터를 만듭니다.

기존 방식: 빨간색과 파란색 구슬이 서로 붙어 있는 상태에서 이를 분리하려고 애쓰는 것과 같습니다. 당신은 그것들을 어떻게 떼어낼지 추측해야만 합니다.
GPI 방식: AI가 이야기를 썼기 때문에, 연구자들에게는 "설명서"가 있습니다. 연구자들은 설계도를 보고 이렇게 말할 수 있습니다. "좋아, 이 설계도의 이 부분은 '군 경력'이라는 재료이고, 저 다른 부분은 '교육'이라는 재료야." 이 과정을 통해 교육이나 어조를 망가뜨리지 않고도 군 경력 부분만을 수학적으로 분리해 낼 수 있습니다.

이를 통해 연구자들은 다음과 같이 질문할 수 있습니다: "만약 교육과 어조는 똑같이 유지하면서, 오직 군 경력 부분만 바꾼다면, 유권자의 점수는 어떻게 변할까?"

왜 이것이 더 나은가

이 논문은 이 방법이 손으로 돌리는 계산기에서 슈퍼컴퓨터로 업그레이드하는 것과 같다고 주장하며, 두 가지 이유로 그 우월성을 밝힙니다.

정확성: 연구자들이 텍스트의 의미를 추측하는 대신 AI의 진정한 내부 설계도를 사용하기 때문에, 훨씬 더 명확한 답을 얻을 수 있습니다. 테스트 결과, 이 방식은 기존의 가장 뛰어난 방법들보다 "노이즈"(오차)가 적고 더 신뢰할 수 있는 결과를 보여주었습니다.
속도: 기존 방식이 모든 조각을 하나하나 살펴보며 거대한 퍼즐을 푸는 것이라면, 이 새로운 방식은 상자에 그려진 완성된 그림을 보고 푸는 것과 같습니다. 이 방식은 문제를 약 100배 더 빠르게 해결합니다.

"텍스트 재사용(Text Reuse)"이라는 반전

연구자들은 또한 흥 nghiệm한 지름길을 발견했습니다. 만약 기존의 전기를 가져와서 AI에게 "이 똑같은 이야기를 다시 써줘"라고 요청하면, AI는 그 기존 텍스트에 대한 새로운 완벽한 설계도를 만들어냅니다. 이는 즉, 처음부터 새로운 이야기를 생성할 필요 없이, 기존 데이터를 AI에 입력하기만 하면 동일한 고품질의 결과를 얻을 수 있다는 것을 의미합니다.

결론

이 논문은 생성형 AI를 단순히 텍스트를 "생성"하는 용도가 아니라, 그 텍스트의 숨겨진 구조를 "이해"하는 용도로 사용함으로써, 사회과학의 복잡한 인과관계의 실타래를 마침내 풀 수 있다고 주장합니다.

목표: 한 가지 특정한 요소(예: 군 복무)가 결과(예: 유권자의 호감도)에 미치는 진정한 효과를 측정하는 것.
문제: 다른 요소들(교란 요인)이 뒤섞여 있음.
해결책: AI를 사용하여 텍스트를 생성하거나 재작성하고, 그 "비밀 설계도"를 확보하여, 원인과 소음(noise)을 완벽하게 분리하는 것.

연구자들은 이를 실제 유권자 설문 조사에 적용하여, 군 경력이 실제로 유권자들이 후보자에게 더 따뜻한 감정을 느끼게 만든다는 것을 확인했으며, 이전보다 훨씬 더 높은 확신과 속도로 이를 증명해 냈습니다. 또한, AI가 유사한 정밀도로 이미지를 생성할 수 있다면, 이 논리는 향후 이미지와 영상에도 적용될 수 있다고 언급했습니다.

기술 요약: 생성형 인공지능을 활용한 인과 추론: 텍스트를 처치(Treatment)로 적용하는 방법

문제 제기
본 논문은 처치(treatment)가 텍스트와 같이 구조화되지 않은 고차원 객체일 때 인과 효과를 추정하는 문제에 대해 다룹니다. 전통적인 텍스트 기반 인과 추론에서 연구자들은 혼란 변수(confounding features)의 저차원 표현(예: 어조, 길이, 특정 주제 등)을 데이터로부터 학습하여 이를 조정해야 합니다. BERT 임베딩이나 토픽 모델링을 사용하는 기존 방식들은 데이터로부터 이러한 표현을 직접 학습하려고 시도합니다. 그러나 이 과정은 관심 있는 특정 처치 특징(예: 군 경력)을 다른 상관관계가 있는 혼란 특징으로부터 분리해내는 데 어려움을 겪으며, 이는 편향된 추정치와 중첩(overlap) 가정의 위반으로 이어집니다. 또한, 데이터로부터 이러한 표현을 학습하는 것은 계산 집약적이며, 특히 혼란(confounding)이 강한 경우 정확한 인과 추정치를 산출하지 못할 수 있습니다.

방법론: GenAI 기반 추론 (GPI)
저자들은 인과 추론을 강화하기 위해 심층 생성 모델, 특히 거대 언어 모델(LLM)을 활용하는 GenAI 기반 추론(GenAI-Powered Inference, GPI) 방법론을 제안합니다. 핵심 혁신은 데이터로부터 표현을 학습하는 대신, LLM으로부터 생성된 텍스트의 *진정한 내부 표현(true internal representation)*을 직접 활용한다는 점에 있습니다.

실험 설계:
- 연구자들은 특정 프롬프트를 기반으로 처치 객체(텍스트)를 생성하기 위해 LLM을 사용합니다. 또는, LLM에게 기존 텍스트를 정확하게 재현하도록 지시하여 기존 텍스트를 "재사용"할 수도 있습니다.
- LLM은 출력이 내부 표현의 결정론적 함수임을 보장하기 위해 결정론적 디코딩(deterministic decoding) 모드(예: 온도를 0으로 설정한 그리디 서치)로 작동해야 합니다.
- 생성된 텍스트의 내부 표현( $R_i$ )은 LLM의 은닉층(hidden layers)에서 직접 추출됩니다.
주요 가정:
- 분리성 (가정 5): 처치 특징( $T$ )과 혼란 특징( $U$ )은 분리 가능해야 합니다. 구체적으로, $T$ 는 $U$ 의 결정론적 함수가 아니어야 하며, $U$ 는 $T$ 의 결정론적 함수가 아니어야 합니다. 이는 혼란 특징을 변경하지 않고도 처치 특징에 개입할 수 있음을 의미합니다.
- 결정론적 디코딩 (가정 6): 생성 모델의 출력은 내부 표현의 결정론적 함수여야 하며, 이를 통해 처치 객체가 프롬프트를 통해서만 이 표현에 의존하도록 보장합니다.
식별 및 추정:
- 비모수적 식별: 분리성 및 결정론적 디코딩 가정 하에, 저자들은 혼란 특징을 요약하는 디컨파운더(deconfounder) 함수 $f(R_i)$ 의 존재를 증명합니다. 이 디컨파운더는 조건부 독립성 $Y_i \perp R_i \mid T_i, f(R_i)$ 를 만족하는 $R_i$ 의 저차원 표현입니다.
- 추정 전략: 저자들은 디컨파운더와 조건부 결과 함수를 동시에 추정하기 위해 TarNet 기반의 신경망 구조를 채택합니다.
- 이중 머신러닝 (DML): 점근적으로 유효한 신뢰 구간을 얻기 위해 DML을 적용합니다. 결정적으로, 성향 점수(propensity score)는 원시 내부 표현이 아닌 추정된 디컨파운더의 함수로 모델링됩니다. 이는 성향 점수가 고차원 내부 표현(여기서 처치 특징은 결정론적 함수임)에 직접 모델링될 때 발생할 수 있는 중첩 가정 위반을 방지합니다.
- 인지된 처치 (Perceived Treatments): 본 방법론은 응답자가 처치 특징을 다르게 인지하는 상황으로 확장되며, 여기서는 실제 처치 특징이 인지된 특징에 대한 도구 변수 역할을 수행합니다.

주요 기여

진정한 내부 표현의 활용: 데이터로부터 표현을 학습하는 이전 연구들(예: BERT 임베딩)과 달리, GPI는 오픈 소스 LLM으로부터 진정한 벡터화된 표현을 직접 추출합니다. 이는 데이터로부터 인과적 표현을 학습할 필요성을 제거하여 정확성과 계산 효율성을 모두 향상시킵니다.
분리성의 공식화: 본 논문은 텍스트 맥락에서 비모수적 식별을 위한 필수 조건으로서 "분리성" 가정을 공식화하며, 이를 얽힘 해소(disentanglement) 및 중첩 개념과 연결합니다.
진단 도구: 저자들은 성향 점수 분포 분석 및 독립 지원 점수(Independence-of-Support Score, IOSS)를 포함한 진단 도구를 제안하여 분리성 가정 위반 가능성을 탐지합니다.
효율적 추정: 내부 표현과 특정 신경망 구조를 사용함으로써, 기존의 인과적 표현 학습 방법에서 흔히 나타나는 "차원의 저주"와 중첩 위반 문제를 피합니다.

결과
저자들은 후보자 프로필 실험(Fong and Grimmer, 2016)에 기반한 시뮬레이션 연구와 동일한 데이터셋을 사용한 실증 적용을 통해 GPI를 평가합니다.

시뮬레이션 연구:
- 분리성 가정 하에서, GPI(새로운 텍스트 생성 및 텍스트 재사용 모두 사용)는 최신 기법들(BERT를 사용한 Outcome Model 및 DML)에 비해 현저히 **작은 편향과 제곱평균제곱근 오차(RMSE)**를 보여줍니다.
- GPI는 약한, 중간, 강한 혼란 시나리오 전반에서 적절한 95% 신뢰 구간 커버리지를 유지합니다. 반면, BERT 기반 방식들은 강한 혼론 상황에서 심각한 커버리지 미달이나 붕괴를 겪습니다.
- 계산 효율성: GPI는 BERT 기반 추정치보다 10배 이상 빠릅니다.
- 텍스트 재사용: "텍스트 재사용" 방식(기존 텍스트를 재생성하는 방식)은 새로운 텍스트를 생성하는 것보다 낮은 분산(RMSE)을 보이는데, 이는 내부 표현의 일관성 때문인 것으로 보입니다.
- 가정의 위반: 분리성 가정이 위반될 때(즉, 처치 특징과 혼란 특징이 뒤섞여 있을 때), GPI를 포함한 모든 방법의 성능이 저하되며, 이는 해당 가정의 중요성을 강조합니다.
실증 적용:
- 후보자 프로절 실험에 적용했을 때, GPI는 군 경력이 유권자 평가에 미치는 정(+)의 통계적으로 유의한 효과를 추정했습니다 (ATE $\approx$ 4.85).
- 경쟁 관계에 있는 BERT 기반 방식들은 상충하는 결과를 냈습니다: 하나는 부(-)의 유의한 효과를 나타냈고, 다른 하나는 지나치게 큰 정(+)의 효과(ATE $\approx$ 45.7)를 나타냈는데, 이는 아마도 중첩 위반 때문인 것으로 보입니다.
- GPI의 IOSS는 0.10으로, BERT 기반 방식의 0.41에 비해 더 나은 지원 중첩(support overlap)을 나타냈습니다.

의의 및 주장
본 논문은 GenAI의 능력을 활용하여 비구조화된 처치를 가진 인과 추론의 타당성을 크게 향상시킨다고 주장합니다. 주요 의의는 다음과 같습니다:

LLM의 진정한 내부 표현을 사용하여 처치 특징을 혼란 특징으로부터 **분리(Disentangle)**할 수 있습니다.
데이터로부터 인과적 표현을 학습할 필요를 제거하여, 추정 오차와 계산 비용을 줄입니다.
GenAI를 인과 추론에 사용하기 위한 이론적 토대를 제공하기 위해, 필요한 (분리성) 조건을 공식화합니다.
도구 변수를 통해 인과 추론을 인지된 처치 특징으로 확장합니다.

저자들은 본 연구의 초점이 텍스트에 맞춰져 있지만, 내부 표현을 효과적으로 관리할 수 있다면 이미지 및 잠재적으로 비디오에도 적용 가능하다고 언급합니다. 또한, 이 방법론은 내부 표현에 접근할 수 있고 결정론적 디코딩이 가능한 오픈 소스 LLM의 가용성에 의존한다는 점을 강조합니다.

Causal Inference with Generative Artificial Intelligence: Application to Texts as Treatments

마법의 복사기 (GenAI)

"디컨파운더(Deconfounder, 교란 제거기)" (필터)

왜 이것이 더 나은가

"텍스트 재사용(Text Reuse)"이라는 반전

결론

유사한 논문