From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"뉴스 속의 이야기 **(내러티브)에 대한 연구입니다.

쉽게 말해, "인플레이션 (물가 상승) 이 왜 일어났는지"에 대한 뉴스 기사들을 컴퓨터가 이해할 수 있도록 **그림 **(그래프)로 그려내는 작업을 했어요. 하지만 여기서 중요한 점은, 사람마다 같은 기사를 보고도 "원인"을 다르게 해석할 수 있다는 사실을 인정하고, 그 차이를 어떻게 측정하고 줄일지 고민했다는 것입니다.

이 복잡한 연구를 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "인플레이션"이라는 거대한 퍼즐

뉴스를 보면 "물가가 오르는 이유는 식량 가격 때문이야", "아니야, 연금 정책 때문이야"라고 서로 다른 주장을 합니다. 컴퓨터는 이 복잡한 이야기를 한 줄로 요약하기보다, **사건과 사건 사이의 인과관계 **(A 가 B 를 일으켰다)를 화살표로 연결한 **지도 **(그래프)로 만들고 싶어 합니다.

하지만 여기서 큰 문제가 생깁니다.

사람 A는 "식량 가격 상승 → 물가 상승"이라고 그림을 그립니다.
사람 B는 "식량 가격 상승 + 운송비 상승 → 물가 상승"이라고 그립니다.
사람 C는 "식량 가격 상승 → 운송비 상승 → 물가 상승"이라고 그립니다.

세 사람 모두 틀린 말은 아니지만, 그림의 모양이 다릅니다. 컴퓨터 과학에서는 보통 "정답이 하나"라고 가정하고 오답을 찾아내지만, 사회과학에서는 이런 다양한 해석이 모두 '진실'일 수 있다고 봅니다. 이를 **'인간 라벨 변이 **(Human Label Variation)라고 부릅니다.

2. 해결책: "질적 내용 분석 (QCA)"이라는 나침반

연구팀은 이 혼란을 해결하기 위해 사회과학에서 쓰는 **'질적 내용 분석 **(QCA)이라는 방법을 가져왔습니다.

비유: 마치 등산 가이드가 있습니다.
- 기존 방식: "산 정상으로 가라"라고만 말하고 각자 길을 찾게 하면, 사람들은 제각기 다른 길을 갑니다.
- 이 연구의 방식: "이 나무는 피하고, 이 바위는 넘어가라"라는 구체적인 가이드라인을 만들고, 등산객들 (참여자) 이 모여서 "저기 바위 넘기 어려운데, 어떻게 하는 게 좋을까?"라고 수시로 토론합니다.
- 이렇게 가이드라인을 계속 다듬어 (반복적 개선) 가면서, 사람들이 그리는 지도가 서로 너무 달라지지 않도록 공통된 기준을 만들었습니다.

3. 실험: "어떤 지도가 가장 신뢰할 만할까?"

연구팀은 6 가지의 다른 지도 그리기 방식과 3 가지의 평가 기준을 섞어 실험을 해봤습니다.

A. 지도의 종류 (어떤 범위를 그릴까?)

**전체 이야기 **(Full Story) 모든 사건과 연결고리를 다 그립니다. (너무 복잡함)
**이웃 이야기 **(Adjacent Story) 물가 상승과 직접 연결된 원인만 그립니다. (가장 깔끔함)
**확장 이야기 **(Extended Story) 직접적인 원인뿐만 아니라 간접적인 원인까지 그립니다.

B. 평가 기준 (얼마나 비슷해야 '동일'한 걸까?)

**관대함 **(Lenient) "어떤 부분이라도 겹치면 비슷하다고 봐." (과대평가 위험)
**적당함 **(Moderate) "겹치는 비율을 계산해서 점수 매겨."
**엄격함 **(Strict) "하나라도 다르면 틀린 거야." (과소평가 위험)

4. 놀라운 발견: "가까운 이웃이 가장 신뢰할 만하다"

실험 결과를 분석한 후, 연구팀은 두 가지 중요한 결론을 내렸습니다.

관대한 평가는 속임수다: "겹치는 부분만 보면 비슷해 보이네?"라고 생각하면 안 됩니다. 겉모습만 비슷해 보일 뿐, 실제 의미는 다를 수 있습니다. 엄격한 기준으로 봐야 진짜 사람들이 얼마나 동의하는지 알 수 있습니다.
범위를 좁히는 것이 정답: 모든 것을 다 그리는 '전체 이야기'보다, **직접적인 원인만 그리는 '이웃 이야기 **(Adjacent Story)가 사람들도 가장 잘 동의하고, 그림도 가장 일관성이 있었습니다.
- 비유: "인플레이션의 원인"을 설명할 때, 100 년 전의 역사까지 다 끌어와서 설명하면 (전체 이야기) 사람마다 의견이 너무 갈립니다. 하지만 "최근에 일어난 직접적인 원인"만 설명하면 (이웃 이야기) 사람들도 "아, 맞다"라고 쉽게 공감합니다.

5. 요약: 이 연구가 우리에게 주는 교훈

이 논문은 **"인공지능이 인간의 복잡한 이야기를 이해할 때, 완벽하게 똑같은 답을 기대하면 안 된다"**고 말합니다. 대신, **사람들이 어디에서 의견이 일치하는지 **(공통된 핵심)를 찾아내는 것이 더 중요합니다.

핵심 메시지: "모든 것을 다 그리는 복잡한 지도보다는, 핵심 사건과 직접적인 연결고리만 깔끔하게 그린 지도가 가장 신뢰할 만하고, 사람들도 이를 가장 잘 이해한다."

이 연구는 앞으로 뉴스 분석, 경제 예측, 혹은 AI 가 인간의 이야기를 이해하는 시스템을 만들 때, 너무 복잡하게 만들지 말고 핵심에 집중하라는 실용적인 조언을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

이 논문은 뉴스 담론 내의 서사 (Narrative), 특히 인플레이션과 같은 경제 사건에 대한 서사를 구조적으로 주석 (Annotation) 하고 평가하는 과정에서 발생하는 핵심적인 도전 과제를 다루고 있습니다.

주석의 복잡성과 주관성: 기존의 NLP 태스크 (시퀀스 분류 등) 와 달리, 서사 주석은 긴 텍스트 구간에서 사건을 식별하고 인과 관계를 연결해야 하므로 해석적 판단이 필요하며, 이는 주관적이고 맥락 의존적입니다.
인간 레이블 변이 (HLV, Human Label Variation): 그래프 기반 표현 (Directed Acyclic Graphs, DAGs) 은 사건 연결 방식에 더 많은 자유도를 부여하여, 주석자마다 다른 사건 식별, 관계 유형 선택, 그래프 세분화 등을 통해 타당하지만 상이한 주석을 생성할 수 있습니다.
평가 기준의 부재: 서사 그래프 주석의 주석자 간 일치도 (IAA, Inter-Annotator Agreement) 를 평가하기 위한 표준화된 합의가 없습니다. 기존 그래프 거리 메트릭 (예: 그래프 편집 거리) 은 분석 목표에 따라 적합성이 달라지며, HLV 가 존재할 때 일관성 있는 해석이 어렵습니다.

2. 방법론 (Methodology)

저자들은 질적 내용 분석 (Qualitative Content Analysis, QCA) 원칙을 NLP 서사 주석 프레임워크에 통합하여 주석 품질을 높이고 오류를 줄이는 접근법을 제시했습니다.

가. 데이터 및 주석 태스크

데이터: Dow Jones Newswires 의 뉴스 코퍼스에서 인플레이션 원인을 다룬 488 개의 문서를 샘플링했습니다. (1990~2023 년 인플레이션 정점 연도 중심)
주석 과정:
1. 태스크 1 (서사 식별): 문서가 인플레이션 원인을 다루는지 분류 (인플레이션 원인 중심, 관련, 비관련).
2. 태스크 2 (서사 추출): 인플레이션 원인과 관련된 사건 (이벤트) 과 그 사이의 인과 관계 (증가/감소) 를 추출하여 DAG(유방향 비순환 그래프) 로 구성.
주석자: 경제학 전공 학생 7 명 (파일럿 3 명, 최종 4 명) 을 모집하여 도메인 지식을 활용했습니다.

나. QCA 기반 주석 프레임워크

카테고리 시스템: Andre et al. (2026) 의 기존 연구를 기반으로 수요 (Demand), 공급 (Supply), 기타 (Miscellaneous) 3 가지 상위 카테고리를 설정하고, 26 개의 세분화된 하위 카테고리 (예: 공급망 문제, 임금, 에너지 가격 등) 로 확장했습니다.
반복적 개선 (Iterative Refinement): 파일럿 스텝에서 주석 가이드라인과 카테고리 시스템의 모호함을 발견하고, 주석자 간 그룹 토론을 통해 정의와 가이드라인을 반복적으로 수정하여 일관성을 확보했습니다.
사전 주석 (Pre-annotation): Gliner 모델을 사용하여 후보 이벤트 스팬을 자동 하이라이팅하여 주석자의 인지 부하를 줄였으나, 최종 판단은 주석자가 내리도록 하여 독립적 해석을 보장했습니다.

다. 평가 프레임워크 (6x3 요인 실험 설계)

주석자 간 일치도 (Krippendorff's $\alpha$ ) 를 측정하기 위해 두 가지 독립 변수를 조합한 실험을 수행했습니다.

서사 표현 (Narrative Representation, 6 수준):
- 범주형: 모든 사건 (All Events), 인접 사건 (Adjacent Events), 관계 (Relations).
- 그래프형: 전체 이야기 (Full Story), 인접 이야기 (Adjacent Story), 확장 이야기 (Extended Story).
거리 메트릭 (Distance Metric, 3 수준):
- 관대함 (Lenient): 부분적 중첩 (Overlap) 기반.
- 중간 (Moderate): 공유 요소 비율 (Jaccard) 기반.
- 엄격함 (Strict): 완전 일치 (Exact Match) 기반.

3. 주요 기여 (Key Contributions)

QCA 기반 서사 그래프 주석 방법론 제안: NLP 분야에서 질적 연구 방법론을 체계적으로 도입하여 HLV 하에서도 신뢰할 수 있는 주석 프로세스를 확립했습니다.
HLV 를 고려한 그래프 기반 평가 프레임워크 개발: Krippendorff's $\alpha$ 를 그래프 데이터에 적용할 수 있도록 확장 (노드, 엣지, 그래프 거리 메트릭 구현) 하고, 다양한 거리 메트릭과 표현 방식에 따른 신뢰도 변화를 체계적으로 분석했습니다.
신뢰성과 맥락 완전성 간의 균형점 도출: 다양한 그래프 표현 중 '인접 이야기 (Adjacent Story)'가 맥락적 완전성을 유지하면서도 주석자 간 일관성이 가장 높은 표현임을 규명했습니다.

4. 주요 결과 (Results)

거리 메트릭의 영향: 관대함 (Lenient) 메트릭 (중첩 기반) 은 주석 신뢰도를 과대평가하는 경향이 있었습니다. 반면, 엄격함 (Strict) 메트릭은 주석자 간의 미묘한 차이를 드러내어 실제 합의 수준을 더 정확히 반영했습니다.
표현 방식의 영향 (국소적 제약의 효과):
- Relations (관계만 추출) 과 Adjacent Story (인접 노드 및 관계) 가 가장 높은 일관성 (높은 $\alpha$ , 낮은 표준편차) 을 보였습니다.
- Full Story나 All Events와 같이 전체적인 맥락을 포함하는 그래프는 주석자 간 해석 차이가 커져 신뢰도가 급격히 하락했습니다.
- 이는 주석 범위를 국소적 구조 (Target node 의 1-hop neighbors) 로 제한할 때 주석 일관성이 향상됨을 의미합니다.
불일치 분석: 주석자들은 '비인플레이션 관련' 문서에서는 높은 합의를 보였으나, '인플레이션 원인'이나 '인플레이션 관련' 문서에서는 합의가 낮았습니다. 특히 '통화 정책', '임금', '에너지 가격' 등이 인플레이션에 미치는 영향 (증가/감소) 에 대한 주석에서 불일치가 가장 두드러졌습니다.

5. 의의 및 시사점 (Significance)

NLP 연구 방법론의 전환: 단순한 정답 (Ground Truth) 추구가 아닌, 인간의 해석적 변이 (HLV) 를 인정하고 이를 체계적으로 분석하는 프레임워크를 제시했습니다.
실용적 가이드라인 제공: 그래프 기반 서사 주석 시, '관대함' 메트릭만 의존하지 말고 다양한 거리 메트릭을 보고해야 하며, 맥락 완전성과 신뢰성 사이의 트레이드오프를 고려하여 '인접 이야기 (Adjacent Story)' 와 같은 국소적 구조를 우선적으로 고려할 것을 권장합니다.
오픈소스 기여: 그래프 기반 Krippendorff's $\alpha$ 계산 구현체와 주석 프레임워크를 오픈소스로 공개하여 향후 연구의 재현성과 확장성을 높였습니다.

이 논문은 경제 서사와 같은 복잡한 NLP 태스크에서 주석의 질을 높이고, 인간 레이블의 변이를 이해하는 데 있어 질적 연구 방법론과 정량적 평가 도구를 결합한 새로운 패러다임을 제시한다는 점에서 의의가 큽니다.