Non-Zipfian Distribution of Stopwords and Subset Selection Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 언어를 분석할 때 우리가 흔히 **'중요하지 않은 단어' (Stopwords)**라고 부르는 것들에 대해 흥미로운 통찰을 제공합니다.

쉽게 말해, **"왜 가장 많이 쓰이는 단어들의 순위와 빈도 그래프는 우리가 알고 있던 '지프의 법칙' (Zipf's Law) 과 다르게 보일까요?"**라는 질문에 답하는 연구입니다.

이 복잡한 수학적 연구를 일상적인 비유로 풀어서 설명해 드릴게요.

1. 배경: 언어의 '소금'과 '주재료'

우리가 글을 쓸 때, 'the', 'a', 'is', 'and', 'of' 같은 단어들은 문장의 뼈대를 잡는 '접착제' 역할을 하지만, 내용 자체를 전달하는 핵심은 아닙니다. 이를 **정지어 (Stopwords)**라고 부릅니다. 마치 요리에 들어가는 소금이나 물과 비슷합니다. 소금이 없으면 음식이 맛이 없겠지만, 소금만 먹으면 배불러도 맛은 없죠.

반면, '고양이', '달려', '푸른' 같은 단어는 주재료입니다.

2. 기존 통념: 지프의 법칙 (Zipf's Law)

기존 언어학에서는 모든 단어를 빈도순으로 나열하면, 1 위 단어의 빈도는 2 위 단어의 약 2 배, 3 위는 3 배 정도로 감소한다는 '지프의 법칙'이 성립한다고 믿었습니다.

비유: 만약 언어를 한 거대한 콘서트라고 한다면, 무대 중앙에 서 있는 스타 (가장 흔한 단어) 가 가장 많이 보이고, 그 옆으로 갈수록 인기가 적은 사람들이 줄지어 서 있는 형태입니다. 이 줄은 매우 규칙적인 경사 (직선) 를 이룹니다.

3. 이 논문의 발견: 정지어는 '뚱뚱한 꼬리'를 가진다

연구자들은 이 '콘서트'에서 소금 (정지어) 들만 따로 떼어내어 다시 줄을 세웠습니다. 그랬더니 놀라운 일이 벌어졌습니다.

전체 단어 (콘서트 전체): 규칙적인 직선 경사 (지프의 법칙) 를 따릅니다.
정지어만 (소금들만): 직선이 아니라 휘어진 곡선이 됩니다. 처음에는 평평하다가 끝으로 갈수록 급격히 떨어지는 모양입니다.

비유:
전체 콘서트에서는 스타부터 조연까지 규칙적으로 줄 서 있지만, 소금 (정지어) 만 따로 모아놓고 보면 아주 인기 있는 소금 몇 가지는 엄청나게 많이 쓰이지만, 그다음부터는 인기가 급격히 떨어지는 특이한 분포를 보인다는 것입니다.

4. 왜 그럴까? '선택의 확률' 모델

연구자들은 이 현상을 설명하기 위해 **'선택의 확률'**이라는 모델을 제안합니다.

비유: 도서관에 책 (단어) 이 수만 권 꽂혀 있습니다. 우리는 이 책들 중에서 '정지어'라는 라벨을 붙일 책을 골라내야 합니다.
- 가장 인기 있는 책 (순위 1~10): 거의 100% 확률로 정지어 라벨을 붙입니다. (예: 'the', 'a')
- 중간 인기 책 (순위 100~1000): 확률이 서서히 떨어집니다. (예: 'make', 'go')
- 인기 없는 책 (순위 10,000 이상): 거의 정지어 라벨을 붙일 확률이 0 에 가깝습니다.

이 논문은 이 '라벨 붙이기 확률'이 **힐 함수 (Hill's function)**라는 수학적 곡선을 따른다고 말합니다. 즉, 순위 (인기) 가 낮아질수록 정지어로 선택될 확률이 급격히 줄어드는 방식입니다.

5. 결과: 정지어 vs 비정지어

이 모델을 적용해서 분석한 결과는 다음과 같습니다.

정지어 (소금들): 위에서 말한 '선택 확률' 모델 때문에, 원래의 규칙적인 직선 (지프의 법칙) 이 **휘어진 곡선 (베타 순위 함수)**으로 변합니다. 마치 규칙적인 경사길에 언덕이 생긴 것처럼요.
비정지어 (주재료들): 정지어를 다 빼고 남은 '주재료'들만 보면, 이들도 원래의 직선 규칙을 따르지 않습니다. 대신 **2 차 함수 (포물선 모양)**에 더 가깝게 분포합니다.
- 비유: 주재료들만 모아놓으면, 인기 있는 재료 (고양이, 달) 와 그다음 인기 있는 재료 (달려, 푸른) 사이의 간격이 정지어만큼 극단적이지 않고, 더 부드러운 곡선을 그리며 분포한다는 뜻입니다.

6. 결론: 언어는 단순하지 않다

이 연구는 **"단순히 '가장 많이 나오는 단어'라고 해서 모두 같은 법칙을 따르는 것은 아니다"**라고 말합니다.

전체 단어: 규칙적인 직선 (지프의 법칙).
정지어만: 휘어진 곡선 (베타 순위 함수).
나머지 단어: 또 다른 곡선 (2 차 함수).

한 줄 요약:
언어를 분석할 때, 가장 흔한 단어들 (정지어) 은 마치 '소금'처럼 특정한 규칙 (선택 확률) 에 따라 골라져서, 전체의 규칙과는 다른 독특한 곡선을 그린다는 것을 수학적으로 증명했습니다. 이는 인공지능 (AI) 이 언어를 이해할 때, 단순히 빈도만 세는 것이 아니라 단어의 '역할'에 따라 분포가 어떻게 달라지는지 이해해야 함을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 자연어 처리 (NLP) 및 정량 언어학 (QL) 에서 '중지어 (Stopwords)'는 문맥적 의미가 적어 분석 시 제거되는 단어 (대명사, 조사, 접속사 등) 를 의미합니다. 일반적으로 전체 단어의 빈도 - 순위 (Rank-Frequency) 분포는 **Zipf 의 법칙 (역멱법칙, $T \propto r^{-\alpha}$ )**을 따르는 것으로 알려져 있습니다.
문제: 전체 단어 집합이 Zipf 의 법칙을 따를 때, 그 하위 집합인 '중지어'만의 빈도 - 순위 분포는 어떻게 되는가?
- 기존 연구들은 중지어가 전체 집합의 상위 빈도 단어를 차지하므로 Zipf 의 법칙을 따를 것이라고 가정하거나, 단순히 부분집합 추출의 결과로 설명하려 했습니다.
- 그러나 저자들은 중지어의 순위 - 빈도 플롯이 Zipf 의 법칙 (직선) 이 아닌, **베타 순위 함수 (Beta Rank Function, BRF)**로 더 잘 설명된다는 가설을 세우고, 이를 수학적으로 증명하고 검증할 모델을 제안하고자 합니다.

2. 연구 방법론 (Methodology)

데이터셋:
- 텍스트: 모비딕 (Moby Dick), 브라운 코퍼스 (Brown Corpus), 그리고 검증용 30 권의 Project Gutenberg 책들.
- 중지어 목록: NLTK(123 개), spaCy(305 개), Snowball(175 개) 등 다양한 중지어 리스트를 사용하여 비교 분석.
피팅 함수 (Fitting Functions):
- 순위 - 빈도 데이터를 피팅하기 위해 다음 함수들을 비교:
  1. Zipf 의 법칙 (역멱법칙)
  2. 2 차 수정 멱법칙 (Quadratic correction of power law)
  3. 베타 순위 함수 (BRF): $T = c(r_{max} + 1 - r)^\beta / r^\alpha$
  4. Mandelbrot 함수
모델 제안 (Subset Selection Model):
- 전체 집합 (Zipf 분포) 에서 중지어가 선택되는 확률을 **감소형 힐 함수 (Decreasing Hill's function)**로 모델링합니다.
- 순위 $r$ 인 단어가 중지어로 선택될 확률:
  $P(\text{stopword})_r = \frac{1}{1 + (r/r_{mid})^\gamma}$
  (여기서 $r_{mid}$ 는 선택 확률이 0.5 가 되는 순위, $\gamma$ 는 힐 계수)
- 이 확률 분포를 통해 부분집합 내의 새로운 순위 ( $r_{new}$ ) 를 누적합으로 정의하고, 이를 통해 중지어의 분포를 유도합니다.
검증:
- 30 권의 독립된 텍스트 코퍼스를 사용하여 순위 $r$ 에 대한 중지어 선택 확률을 직접 추정하여 모델의 매개변수 ( $r_{mid}, \gamma$ ) 를 검증.
- 비중지어 (Non-stopwords) 에 대해서는 선택되지 않을 확률 (증가형 힐 함수) 을 적용하여 분포를 분석.

3. 주요 결과 (Key Results)

A. 중지어의 분포는 BRF 를 따름

전체 단어 집합 (모비딕, 브라운 코퍼스) 은 Zipf 의 법칙 ( $\alpha \approx 1$ ) 을 잘 따르지만, 중지어만 추출하여 재순위화한 경우는 Zipf 의 법칙이 아닌 **베타 순위 함수 (BRF)**로 완벽하게 피팅됨을 확인했습니다.
중지어는 전체 집합의 상위 빈도 단어를 차지하지만, 부분집합 내에서의 순위 재배열로 인해 분포 곡선이 휘어지게 됩니다.

B. 중지어 선택 확률 모델의 검증

제안된 감소형 힐 함수 모델이 4 가지 텍스트/중지어 리스트 조합 (모비딕/브라운 $\times$ NLTK/spaCy) 에서 관찰된 순위 감소 비율 ( $r_{new}/r$ ) 을 거의 완벽하게 설명합니다.
30 권의 독립된 텍스트 코퍼스를 사용하여 직접 추정된 매개변수 ( $r_{mid} \approx 75, \gamma \approx 1.78$ ) 는 모델의 타당성을 입증했습니다.

C. 비중지어 (Non-stopwords) 의 분포 특성

중지어를 제거한 나머지 단어 (비중지어) 의 분포는 Zipf 의 법칙도 BRF 도 따르지 않습니다.
비중지어의 로그 - 로그 순위 - 빈도 플롯은 **2 차 함수 (Quadratic function, $\log(T) \sim -\alpha \log(r) - \kappa(\log r)^2$ )**로 가장 잘 설명됩니다.
이는 비중지어가 전체 집합에서 '선택되지 않음 (Not-selected)' 확률 (증가형 힐 함수) 을 따르는 부분집합이기 때문에, 머리와 꼬리 부분에서 서로 다른 멱법칙 지수를 보이며 2 차 곡선 형태로 연결되기 때문입니다.

D. 이론적 증명

전체 집합이 Zipf 법칙을 따르고, 부분집합 선택 확률이 힐 함수를 따른다면, 유도된 부분집합의 분포는 수학적으로 BRF가 됨을 증명했습니다.
머릿부분 (Head) 과 꼬리부분 (Tail) 에서의 점근적 거동을 분석하여, BRF 와 2 차 함수 피팅의 이론적 근거를 제시했습니다.

4. 주요 기여 (Key Contributions)

중지어 분포의 규명: 중지어의 순위 - 빈도 분포가 Zipf 의 법칙이 아니라 BRF임을 최초로 체계적으로 입증했습니다.
부분집합 선택 모델 제안: 중지어 선정이 단순한 임의 추출이 아니라, 단어의 원래 순위 ( $r$ ) 에 따라 확률이 결정되는 힐 함수 기반의 선택 과정임을 모델링했습니다.
이론적 연결: 전체 집합의 Zipf 분포와 부분집합의 BRF/2 차 함수 분포 사이의 수학적 관계를 유도하여, 정량 언어학에서 관찰되는 다양한 분포 패턴을 통합적으로 설명하는 틀을 마련했습니다.
비중지어 분석: 중지어 제거 후 남은 단어들이 2 차 함수로 설명된다는 새로운 사실을 발견하고, 그 원인을 부분집합 선택 메커니즘으로 해석했습니다.

5. 의의 및 결론 (Significance)

NLP 및 언어학: 중지어 처리가 단순한 전처리 단계를 넘어, 언어 데이터의 통계적 구조 (분포 형태) 에 근본적인 영향을 미친다는 점을 강조합니다. 이는 텍스트 마이닝, 토픽 모델링, 저자 식별 (Stylometry) 등에서 중지어 제거 전략의 중요성을 재조명합니다.
통계적 모델링: Zipf 의 법칙이 보편적이지 않으며, 데이터의 하위 집합 추출 방식 (Subset Selection) 에 따라 분포가 BRF 나 2 차 함수 등 다양한 형태로 변형될 수 있음을 보여줍니다.
응용 가능성: 제안된 힐 함수 기반 선택 모델은 언어학뿐만 아니라 유전자 세트, 도시 규모 분포 등 다양한 복잡계 시스템에서 부분집합의 분포 특성을 이해하는 데 적용될 수 있는 일반적인 프레임워크를 제공합니다.

요약하자면, 이 논문은 중지어가 전체 단어 집합에서 특정 확률 규칙 (힐 함수) 에 따라 선택된 부분집합임을 증명하고, 이로 인해 중지어의 분포가 BRF로, 비중지어의 분포가 2 차 함수로 변형되는 메커니즘을 수학적으로 규명했습니다.