TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

이 논문은 수동 코딩의 한계를 극복하고 대규모 텍스트 코퍼스에 적용 가능한 확장성 있는 분석을 위해 BERTopic 과 ENA 를 결합한 'TopicENA'프레임워크를 제안하고, 다양한 분석 사례를 통해 그 유효성과 설정 가이드라인을 제시합니다.

Owen H. T. Lu, Tiffany T. Y. Hsu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "손으로 분류하는 것의 한계"

예전에는 연구자들이 수천, 수만 개의 글 (에세이, 댓글, 대화 기록 등) 을 분석할 때, **전문가들이 직접 눈으로 하나하나 읽어가며 "이 글은 A 주제야, 저 글은 B 주제야"라고 손으로 분류 (코딩)**했습니다.

  • 비유: 마치 도서관에 쌓인 책 10 만 권을 한 권씩 펼쳐서 "이 책은 요리책이야, 저 책은 역사책이야"라고 손으로 분류하는 것과 같습니다.
  • 문제: 책이 조금만 많아져도 시간이 너무 오래 걸리고, 사람이 다 할 수 없습니다. 그래서 큰 데이터를 분석하는 데 한계가 있었습니다.

2. 해결책: "TopicENA"라는 자동 분류 로봇

이 논문은 BERTopic이라는 최신 인공지능 기술을 활용하여, 사람이 대신 글의 주제를 자동으로 찾아내고, 그 주제들 사이의 관계를 네트워크 (그물망) 로 그려주는 TopicENA를 개발했습니다.

  • 비유: 이제 도서관에 초고속 로봇을 투입했습니다. 로봇이 책 10 만 권을 순식간에 훑어보며 "이 책들은 모두 '요리' 관련이야", "저 책들은 '역사' 관련이야"라고 자동으로 분류하고, "요리책과 역사책이 함께 언급되는 경우가 많네?"라고 관계를 찾아냅니다.

3. 핵심 발견: "적당한 눈높이와 필터"가 중요해요

이 로봇을 잘 쓰려면 두 가지 설정을 잘 맞춰야 한다는 것을 실험을 통해 발견했습니다.

① 주제 세분화 (Topic Granularity): "렌즈의 초점"

글을 분석할 때 주제를 얼마나 세밀하게 나눌지 정해야 합니다.

  • 데이터가 작을 때 (작은 도서관): 주제를 세밀하게 나누는 것이 좋습니다. (예: '이탈리아 요리', '중국 요리'로 쪼개기)
  • 데이터가 클 때 (거대한 도서관): 주제를 넓고 굵게 잡는 것이 좋습니다. (예: 그냥 '요리' 하나로 묶기)
  • 왜? 데이터가 너무 많은데 주제를 너무 세분화하면, 각 주제에 할당된 글이 너무 적어져서 의미가 흐려집니다. 반대로 데이터가 적은데 주제를 너무 넓게 잡으면, 중요한 세부 차이가 사라집니다.
  • 비유: 작은 방을 정리할 때는 '신발장', '옷장'으로 세분화해야 하지만, 거대한 쇼핑몰 전체를 정리할 때는 '의류관', '신발관'처럼 큰 구역으로 나누는 게 효율적입니다.

② 포함 기준 (Topic Inclusion Threshold): "문지방 높이"

하나의 글이 여러 주제에 해당할 때, 얼마나 확실해야 그 주제를 포함시킬지 정하는 기준입니다.

  • 기준이 너무 낮으면 (문지방이 낮음): 모든 글이 모든 주제에 해당하게 되어, 네트워크가 너무 빽빽하게 꼬여버려서 어떤 차이도 보이지 않습니다. (너무 많은 정보가 섞여 혼란스러움)
  • 기준이 너무 높으면 (문지방이 너무 높음): 중요한 글들도 제외되어 네트워크가 너무 빈약해져서 아무것도 보이지 않습니다.
  • 적정선: "그럭저럭 관련성이 있어 보이는" 정도에서 멈추는 것이 가장 좋습니다. 그래야 그룹 간의 차이 (예: 점수가 높은 학생 vs 낮은 학생) 를 명확하게 볼 수 있습니다.

4. 실제 성과: "거대한 데이터도 척척"

이 연구는 미국 중학생들이 쓴 **24,000 여 편의 에세이 (약 45 만 개의 문장)**를 분석해 보았습니다.

  • 결과: 사람이 일일이 분류했다면 몇 달은 걸렸을 작업을, TopicENA 는 자동으로 처리했습니다.
  • 발견: 로봇이 자동으로 찾아낸 주제들이 실제 시험 문제 (예: '전기차', '화성 탐사', '선거인단') 와 완벽하게 일치했습니다. 또한, 점수가 높은 학생들과 낮은 학생들의 사고 방식 (어떤 개념들을 어떻게 연결하는지) 에서 뚜렷한 차이를 찾아냈습니다.

5. 결론: 연구자의 역할 변화

이 도구를 통해 연구자의 역할이 바뀝니다.

  • 과거: "이 문장은 A 주제인가, B 주제인가?"라고 **하나하나 분류하는 일 (노동)**을 했습니다.
  • 현재: "이렇게 설정했을 때 어떤 큰 그림이 나오는가?"라고 **전체적인 구조를 해석하고 의미를 찾는 일 (지혜)**을 합니다.

한 줄 요약:

TopicENA는 방대한 글 더미를 사람이 직접 분류하지 않고, 인공지능이 자동으로 주제를 찾아내고 그 관계를 그려주는 **'스마트 도서관 관리자'**입니다. 데이터의 크기에 따라 분석의 '눈높이'와 '기준'을 잘 조절하면, 거대한 데이터 속에서도 숨겨진 중요한 패턴을 쉽게 찾아낼 수 있습니다.