Causal Inference with Generative Artificial Intelligence: Application to Texts as Treatments

본 논문은 대규모 언어 모델을 활용하여 처치(treatment)를 생성하고 이들의 내부 표현을 활용함으로써 비정형 텍스트로부터 더 정확하고 효율적인 인과 효과 추정을 수행하는 생성형 AI 기반 추론(Generative AI-Powered Inference, GPI) 방법론을 제안하며, 이를 통해 데이터로부터 직접 인과 표현을 학습할 필요성을 제거하고 교란(confounding) 및 중첩 위반(overlap violations)과 같은 일반적인 문제들을 극복한다.

원저자: Kosuke Imai, Kentaro Nakamura

게시일 2026-06-12
📖 4 분 읽기☕ 가벼운 읽기

원저자: Kosuke Imai, Kentaro Nakamura

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 이야기 속의 특정 세부 사항이 사람들의 감정에 어떻게 영향을 미치는지 밝혀내려는 탐정이라고 상상해 보세요. 예를 들어, 다음과 같은 질문을 던지고 싶습니다: 군 경력이 있는 것이 유권자들이 정치인을 더 좋아하게 만드는가?

문제는 현실 세계의 이야기들이 매우 복잡하다는 점입니다. 군 경력이 있는 정치인은 우연히 나이가 더 많거나, 교육 수준이 다르거나, 혹은 자신의 전기(biography)를 더 감성적인 어조로 썼을 수도 있습니다. 만약 당신이 단순히 무작위로 추출한 두 개의 전기를 비교한다면, 유권자들이 그 정치인을 좋아하게 된 이유가 '군 경력' 때문인지 아니면 '교육 수준' 때문인지 구분할 수 없습니다. 과학에서는 이러한 복잡한 추가 요소들을 "교란 요인(confounders)"이라고 부릅니다.

전통적으로 연구자들은 컴퓨터를 이용해 텍스트를 "읽고" 교란 요인이 무엇인지 추측함으로써 이 문제를 해결하려 노력해 왔습니다. 하지만 이는 마치 먼지가 어디에 있는지 추측하며서 더러운 창문을 닦으려는 것과 같습니다. 어렵고, 느리며, 종종 부정확합니다.

이 논문은 **GPI (Generative-AI Powered Inference, 생성형 AI 기반 추론)**라고 불리는 새로운 도구를 소개합니다. 이 도구가 어떻게 작동하는지 쉬운 비유를 통해 설명해 보겠습니다.

마법의 복사기 (GenAI)

연구자들은 단순히 기존의 이야기를 읽는 대신, "마법의 복사기"(대규모 언어 모델, 즉 LLM)를 사용하여 자신들을 위해 이야기를 직접 쓰게 만듭니다.

  1. 프롬프트(명령어): 연구자는 기계에게 이렇게 말합니다: "군 경력이 있는 정치인의 전기를 써줘." 그다음 기계에게 말합니다: "군 경력이 없는 정치인의 전기를 써줘."
  2. 비밀 설계도: 여기에 초능력이 있습니다. AI가 이야기를 쓸 때, 단순히 단어들을 내뱉는 것이 아니라, 자신이 쓴 내용에 대한 정교하고 숨겨진 "내부 설계도"(수학적 표현)를 함께 만들어냅니다.
  3. 기술: AI가 이야기를 썼기 때문에, 연구자들은 이 완벽하고 숨겨진 설계도에 접근할 수 있습니다. 연구자들은 AI가 군 경력을 표현하기 위해 텍스트에 무엇을 넣었는지, 그리고 교육이나 어조와 같은 다른 요소들을 위해 무엇을 넣었는지 정확히 알 수 있습니다.

"디컨파운더(Deconfounder, 교란 제거기)" (필터)

연구자들은 이 완벽한 설계도를 사용하여 **디컨파운더(Deconfounder)**라는 특별한 필터를 만듭니다.

  • 기존 방식: 빨간색과 파란색 구슬이 서로 붙어 있는 상태에서 이를 분리하려고 애쓰는 것과 같습니다. 당신은 그것들을 어떻게 떼어낼지 추측해야만 합니다.
  • GPI 방식: AI가 이야기를 썼기 때문에, 연구자들에게는 "설명서"가 있습니다. 연구자들은 설계도를 보고 이렇게 말할 수 있습니다. "좋아, 이 설계도의 이 부분은 '군 경력'이라는 재료이고, 저 다른 부분은 '교육'이라는 재료야." 이 과정을 통해 교육이나 어조를 망가뜨리지 않고도 군 경력 부분만을 수학적으로 분리해 낼 수 있습니다.

이를 통해 연구자들은 다음과 같이 질문할 수 있습니다: "만약 교육과 어조는 똑같이 유지하면서, 오직 군 경력 부분만 바꾼다면, 유권자의 점수는 어떻게 변할까?"

왜 이것이 더 나은가

이 논문은 이 방법이 손으로 돌리는 계산기에서 슈퍼컴퓨터로 업그레이드하는 것과 같다고 주장하며, 두 가지 이유로 그 우월성을 밝힙니다.

  1. 정확성: 연구자들이 텍스트의 의미를 추측하는 대신 AI의 진정한 내부 설계도를 사용하기 때문에, 훨씬 더 명확한 답을 얻을 수 있습니다. 테스트 결과, 이 방식은 기존의 가장 뛰어난 방법들보다 "노이즈"(오차)가 적고 더 신뢰할 수 있는 결과를 보여주었습니다.
  2. 속도: 기존 방식이 모든 조각을 하나하나 살펴보며 거대한 퍼즐을 푸는 것이라면, 이 새로운 방식은 상자에 그려진 완성된 그림을 보고 푸는 것과 같습니다. 이 방식은 문제를 약 100배 더 빠르게 해결합니다.

"텍스트 재사용(Text Reuse)"이라는 반전

연구자들은 또한 흥 nghiệm한 지름길을 발견했습니다. 만약 기존의 전기를 가져와서 AI에게 "이 똑같은 이야기를 다시 써줘"라고 요청하면, AI는 그 기존 텍스트에 대한 새로운 완벽한 설계도를 만들어냅니다. 이는 즉, 처음부터 새로운 이야기를 생성할 필요 없이, 기존 데이터를 AI에 입력하기만 하면 동일한 고품질의 결과를 얻을 수 있다는 것을 의미합니다.

결론

이 논문은 생성형 AI를 단순히 텍스트를 "생성"하는 용도가 아니라, 그 텍스트의 숨겨진 구조를 "이해"하는 용도로 사용함으로써, 사회과학의 복잡한 인과관계의 실타래를 마침내 풀 수 있다고 주장합니다.

  • 목표: 한 가지 특정한 요소(예: 군 복무)가 결과(예: 유권자의 호감도)에 미치는 진정한 효과를 측정하는 것.
  • 문제: 다른 요소들(교란 요인)이 뒤섞여 있음.
  • 해결책: AI를 사용하여 텍스트를 생성하거나 재작성하고, 그 "비밀 설계도"를 확보하여, 원인과 소음(noise)을 완벽하게 분리하는 것.

연구자들은 이를 실제 유권자 설문 조사에 적용하여, 군 경력이 실제로 유권자들이 후보자에게 더 따뜻한 감정을 느끼게 만든다는 것을 확인했으며, 이전보다 훨씬 더 높은 확신과 속도로 이를 증명해 냈습니다. 또한, AI가 유사한 정밀도로 이미지를 생성할 수 있다면, 이 논리는 향후 이미지와 영상에도 적용될 수 있다고 언급했습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →