Uncertainty-Aware Estimation of Mis/Disinformation Prevalence on Social Media

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"소셜 미디어에 퍼진 가짜 뉴스 (오보/허위 정보) 가 실제로 얼마나 많은지 정확히 측정하는 방법"**에 대한 연구입니다.

기존 연구들은 "가짜 뉴스가 전체의 10% 입니다"라고 숫자만 알려주곤 했는데요. 이 논문은 **"그 10% 라는 숫자가 얼마나 오차가 있을 수 있는지, 그 불확실성까지 함께 측정하자"**고 주장합니다.

이 복잡한 연구를 쉽게 이해할 수 있도록 **'가짜 뉴스 탐정단'**의 모험 이야기로 비유해 설명해 드리겠습니다.

🕵️‍♂️ 가짜 뉴스 탐정단의 모험: "정확한 숫자는 어디에?"

이 연구는 유럽 4 개국 (프랑스, 폴란드, 슬로바키아, 스페인) 의 6 개 소셜 미디어 (페이스북, 인스타그램, 틱톡 등) 에서 가짜 뉴스가 얼마나 퍼져 있는지 조사했습니다. 하지만 단순히 세기만 하면 안 되는 이유가 있습니다. 바로 세 가지 '실수' 가능성 때문입니다.

1. 첫 번째 실수: "샘플링의 불확실성" (우연히 잡힌 물고기)

비유: 바다 (전체 소셜 미디어) 에서 물고기 (게시물) 를 잡으려는데, 그물 (검색 키워드) 을 던져서 잡은 물고기만 세는 상황입니다.
문제: 그물을 어디에, 어떻게 던졌느냐에 따라 잡힌 물고기의 종류와 크기가 달라질 수 있습니다. 만약 그물이 좁다면, 바다 전체의 상황을 제대로 알 수 없죠.
해결: 연구진은 "우리가 잡은 물고기만 세면 안 되고, 그물 던지는 위치를 바꿔가며 여러 번 세어보아야 한다"고 말합니다. 이를 **부트스트래핑 (Bootstrap)**이라는 통계 기법으로 해결했습니다.

2. 두 번째 실수: "판단의 불확실성" (심판의 눈치)

비유: 잡힌 물고기들이 '진짜 물고기'인지 '가짜 물고기 (장난감)'인지 판별하는 심판 (팩트체커) 들이 있습니다.
문제: 어떤 심판은 "이건 가짜야!"라고 하고, 다른 심판은 "아니, 진짜 같아"라고 할 수 있습니다. 특히 경계선상의 모호한 게시물들은 심판마다 의견이 갈립니다.
해결: 연구진은 '주니어 심판'과 '시니어 심판'을 두어 서로 다른 의견을 비교했습니다. 그리고 컴퓨터 시뮬레이션을 돌려 "만약 심판들이 조금만 다르게 판단했다면 결과가 얼마나 달라질까?"를 계산했습니다.

3. 세 번째 실수: "검색의 불확실성" (키워드의 함정)

비유: 가짜 뉴스를 찾으려면 '키워드'라는 나침반을 사용합니다. 예를 들어 '전쟁'이라는 단어로 검색하면 전쟁 관련 가짜 뉴스는 나오지만, '평화'라는 단어로 검색하면 다른 가짜 뉴스는 놓칠 수 있습니다.
문제: 연구진이 선택한 키워드 목록이 조금만 달라져도, 잡히는 가짜 뉴스의 양이 크게 바뀔 수 있습니다. 이것이 가장 큰 오차 원인입니다.
해결: 키워드 목록을 여러 번 바꿔가며 검색을 반복했습니다.

📊 연구의 핵심 발견: "숫자보다 오차 범위가 중요하다"

이 연구는 위 세 가지 불확실성을 모두 합쳐서 최종 결과를 냈습니다. 결과는 놀라웠습니다.

가장 큰 오차의 원인은 '심판'이 아니라 '검색'이었다:
- 많은 사람이 "심판들이 실수해서 결과가 달라지겠지?"라고 생각하지만, 실제로는 **"어떤 키워드로 검색했느냐"**가 결과에 훨씬 더 큰 영향을 미쳤습니다.
- 비유: 가짜 뉴스의 양을 재는 저울이 있는데, 심판이 물고기를 올릴 때 살짝 흔들리는 것 (심판 오차) 보다는, 저울 자체를 어디에 놓느냐 (검색 키워드) 에 따라 무게가 2 배나 달라지는 것과 같습니다.
불확실성을 고려하면 '범위'가 훨씬 넓어진다:
- 기존 연구들은 "가짜 뉴스 비율은 10%"라고 딱 잘라 말했지만, 이 연구는 **"가짜 뉴스 비율은 4% 에서 16% 사이일 수 있다"**고 말합니다.
- 비유: 날씨 예보에서 "내일 비가 온다"라고만 하는 것보다, "내일 비 올 확률은 40%~80% 사이입니다"라고 알려주는 것이 훨씬 현실적이고 신뢰할 수 있습니다.
플랫폼마다, 언어마다 다릅니다:
- 틱톡 (TikTok) 같은 플랫폼에서는 가짜 뉴스가 특히 많았고, 언어에 따라 그 양과 불확실성도 크게 달랐습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 우리에게 **"숫자 하나만 믿지 말고, 그 숫자가 얼마나 흔들릴 수 있는지 (불확실성) 도 함께 보고해야 한다"**고 가르쳐 줍니다.

정책 입안자들에게: "가짜 뉴스가 10% 라서 규제해야 한다"고 하기보다, "불확실성을 고려할 때 4%~16% 까지 나올 수 있으니, 더 넓은 범위를 고려해 대응책을 마련해야 한다"는 식의 현실적인 접근이 필요합니다.
우리가 읽을 때: 뉴스나 보고서에서 "가짜 뉴스 비율은 X% 입니다"라는 문구를 볼 때, **"그 숫자는 얼마나 오차가 있을 수 있을까?"**라고 질문해 보는 것이 중요합니다.

한 줄 요약:

"가짜 뉴스를 세는 것은 단순히 숫자를 세는 게 아니라, 어떤 그물로, 누가, 어떻게 세었느냐에 따라 결과가 얼마나 달라질 수 있는지 그 '흔들림'까지 함께 측정하는 것이 진짜 과학적인 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 소셜 미디어에서의 허위/오정보 (Mis/Disinformation) 는 사회적 신뢰를 훼손하고 공론장을 왜곡하며 선전 (propaganda) 의 확산을 조장합니다. EU 의 '허위정보 행동 강령 (Code of Conduct on Disinformation)' 및 '디지털 서비스법 (DSA)'과 같은 규제 프레임워크는 플랫폼의 투명성과 책임성을 요구하며, 허위정보의 유포율 (Prevalence) 추정이 핵심 지표로 부상했습니다.
문제: 기존 연구들은 주로 특정 플랫폼이나 주제에 대한 유포율을 '점 추정치 (point estimate)'로 보고하는 데 그쳤습니다. 그러나 이러한 추정치는 데이터 수집 방법 (키워드 기반), 인간 주석자의 불일치, 표본 추출의 변동성 등 여러 소스에서 발생하는 불확실성 (Uncertainty) 을 정량화하지 못했습니다. 이로 인해 정책 결정자나 연구자들이 얻은 수치의 신뢰도를 과신하거나, 방법론적 한계를 간과할 위험이 있습니다.
목표: 본 연구는 허위정보 유포율 추정을 단순한 계수가 아닌, 불확실성을 정량화한 범위 (Confidence Intervals) 로 제시하는 방법론을 제안합니다.

2. 연구 방법론 (Methodology)

본 연구는 2025 년 3 월~4 월에 프랑스, 폴란드, 슬로바키아, 스페인 4 개 EU 회원국의 6 개 주요 플랫폼 (Facebook, Instagram, LinkedIn, TikTok, X/Twitter, YouTube) 에서 수집된 다국어 데이터를 기반으로 합니다.

2.1 데이터 수집 및 전처리

데이터: 약 100 개의 큐레이션된 키워드 (Russo-Ukrainian 전쟁, 기후 변화, 건강, 이주, 지역 정치 등 5 개 주제) 를 사용하여 수집.
필터링: GPT-4o-mini 를 활용하여 관련 없는 콘텐츠 (연예, 스포츠 등) 를 자동 필터링하고, 전문 팩트체크러가 수동으로 정제.
주석 (Annotation): 주니어 팩트체크러가 전체 샘플을 주석하고, 시니어 팩트체크러가 무작위 20% 를 이중 주석 (Double-coding) 하여 불일치 해결 및 품질 보정.

2.2 불확실성 모델링 접근법

연구는 유포율 추정에 영향을 미치는 세 가지 주요 불확실성 소스를 분리 및 통합하여 모델링합니다.

표본 불확실성 (Sample Uncertainty):
- 전체 콘텐츠 중 일부만 샘플링되었기 때문에 발생하는 변동성.
- 방법: 이항 비율에 대한 Wilson 점수 구간 (Wilson score interval) 을 사용하여 95% 신뢰구간을 계산.
주석 불확실성 (Annotation Uncertainty):
- 주석자 간의 의견 불일치 및 오분류로 인한 불확실성.
- 방법: 이중 주석된 데이터 (Double-coded subset) 에서 관찰된 라벨 전이 행렬 (Transition Matrix) 을 기반으로 다항 분포 시뮬레이션 (Multinomial Simulation) 을 수행. 이를 통해 단일 주석자 (Junior-only) 가 주석한 나머지 데이터의 라벨을 보정하고 불확실성을 전파.
데이터 검색 불확실성 (Data Retrieval Uncertainty):
- 키워드 기반 수집 전략으로 인해 특정 키워드 선택이 다른 하위 집합을 추출하여 발생하는 편향.
- 방법: 부트스트랩 (Bootstrap) 재표본 추출 기법 적용.
  - 1 단계: 키워드 풀에서 키워드를 재표본 추출.
  - 2 단계: 선택된 키워드에 연결된 게시물을 재표본 추출.
  - 이를 통해 키워드 선택과 게시물 샘플링의 변동성을 모두 반영.
결합 불확실성 (Joint Uncertainty Estimation):
- 위의 세 가지 소스를 통합하여 최종적인 불확실성을 추정.
- 방법: 키워드/게시물 부트스트랩과 다항 분포 시뮬레이션을 결합한 계층적 시뮬레이션 수행 (키워드 재표본 추출 $\rightarrow$ 게시물 재표본 추출 $\rightarrow$ 주석 시뮬레이션).

3. 주요 기여 (Key Contributions)

불확실성 인식 추정 방법론 제안: 허위정보 유포율 추정에 있어 표본, 주석, 검색 (키워드) 의 세 가지 불확실성 소스를 체계적으로 정량화하고 결합하는 방법론을 최초로 제시.
다중 플랫폼 및 다국어 분석: 4 개 국가, 4 개 언어, 6 개 플랫폼에 걸친 대규모 데이터를 분석하여 언어적, 플랫폼별 편차를 포착.
검색 불확실성의 지배적 영향 규명: 기존 연구들이 주로 주석 오류에 집중했던 것과 달리, 키워드 기반 데이터 수집 과정에서의 변동성이 유포율 추정의 전체 불확실성 (신뢰구간 폭) 을 결정하는 가장 큰 요인임을 실증적으로 증명.
정책 및 규제 프레임워크 지원: EU 의 구조적 지표 (Structural Indicators) 측정을 위한 과학적 근거를 제공하며, 불확실성 수치를 함께 보고해야 함을 강조.

4. 주요 결과 (Results)

언어별 유포율: 프랑스어 (약 17.5~~19.8%), 슬로바키아어 (약 7.6~~8.9%), 폴란드어 (약 6.0~6.7%), 스페인어 (약 5.0%) 순으로 높게 나타남.
플랫폼별 유포율: TikTok 이 가장 높음 (약 20.1~~20.8%), LinkedIn 이 가장 낮음 (약 1.3~~1.7%).
불확실성 소스별 영향 비교:
- 주석 불확실성: 유포율의 점 추정치 (Point Estimate) 를 약간 상향 또는 하향 조정하는 효과가 있었으나, 신뢰구간의 폭을 크게 넓히지는 않음. (예: 프랑스어 기준 17.5% $\rightarrow$ 19.7%)
- 검색 불확실성 (키워드): 신뢰구간의 폭을 압도적으로 확대시킴.
  - 예: 슬로바키아어의 경우, 기본 신뢰구간 [6.5–8.8] 이 검색 불확실성을 반영하면 [4.5–16.7] 로 폭이 두 배 이상 늘어남.
  - TikTok 의 경우 언어별/플랫폼별 조합에서 신뢰구간이 매우 비대칭적이고 넓게 분포함.
- 결합 불확실성: 검색 불확실성만 고려한 경우와 결합 불확실성 (주석 + 검색) 의 신뢰구간 폭 차이가 미미함. 이는 데이터 수집 (키워드 선택) 이 유포율 추정의 전체 변동성을 지배함을 의미.

5. 의의 및 시사점 (Significance)

방법론적 엄밀성: 허위정보 연구에서 '단일 숫자'로 유포율을 보고하는 것은 오해를 불러일으킬 수 있음을 지적. 대신 신뢰구간 (Confidence Intervals) 과 불확실성 소스를 명시적으로 보고해야 함을 강조.
데이터 수집 전략의 중요성: 키워드 기반 수집이 유포율 추정의 가장 큰 오차 원인임을 발견. 향후 연구에서는 키워드 리스트를 확장하고, 다양한 시나리오를 테스트하여 검색 편향을 줄여야 함.
규제 및 정책 함의:
- 플랫폼은 데이터 접근 (API) 을 투명하게 제공해야 하며, 키워드 기반 수집의 불확실성을 인정하는 모니터링 프레임워크가 필요.
- EU 와 같은 규제 기관은 허위정보 대응 전략을 수립할 때 불확실성 범위를 고려한 유연한 접근이 필요.
향후 연구 방향: 더 많은 언어와 플랫폼, 시간적 범위를 확장하고, 도메인별 (건강, 정치 등) 주석 행태의 변동을 모델링하여 불확실성 추정을 더 정교하게 할 필요성 제기.

결론적으로, 본 연구는 허위정보 유포율 추정이 단순한 통계적 계산을 넘어, 데이터 수집 및 주석 과정의 불확실성을 체계적으로 관리해야 하는 복잡한 측정 문제임을 입증했습니다.