Non-Zipfian Distribution of Stopwords and Subset Selection Models

이 논문은 전 단어 목록이 지프의 법칙을 따를 때, 빈도 순위가 감소하는 힐 함수에 기반한 하위 집합 선택 모델을 통해_stopword_의 빈도 분포가 베타 순위 함수 (BRF) 로, 그리고 비-stopword 는 2 차 함수로 적합하게 설명됨을 이론적 및 실증적으로 입증합니다.

Wentian Li, Oscar Fontanelli

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 언어를 분석할 때 우리가 흔히 **'중요하지 않은 단어' (Stopwords)**라고 부르는 것들에 대해 흥미로운 통찰을 제공합니다.

쉽게 말해, **"왜 가장 많이 쓰이는 단어들의 순위와 빈도 그래프는 우리가 알고 있던 '지프의 법칙' (Zipf's Law) 과 다르게 보일까요?"**라는 질문에 답하는 연구입니다.

이 복잡한 수학적 연구를 일상적인 비유로 풀어서 설명해 드릴게요.


1. 배경: 언어의 '소금'과 '주재료'

우리가 글을 쓸 때, 'the', 'a', 'is', 'and', 'of' 같은 단어들은 문장의 뼈대를 잡는 '접착제' 역할을 하지만, 내용 자체를 전달하는 핵심은 아닙니다. 이를 **정지어 (Stopwords)**라고 부릅니다. 마치 요리에 들어가는 소금이나 과 비슷합니다. 소금이 없으면 음식이 맛이 없겠지만, 소금만 먹으면 배불러도 맛은 없죠.

반면, '고양이', '달려', '푸른' 같은 단어는 주재료입니다.

2. 기존 통념: 지프의 법칙 (Zipf's Law)

기존 언어학에서는 모든 단어를 빈도순으로 나열하면, 1 위 단어의 빈도는 2 위 단어의 약 2 배, 3 위는 3 배 정도로 감소한다는 '지프의 법칙'이 성립한다고 믿었습니다.

  • 비유: 만약 언어를 한 거대한 콘서트라고 한다면, 무대 중앙에 서 있는 스타 (가장 흔한 단어) 가 가장 많이 보이고, 그 옆으로 갈수록 인기가 적은 사람들이 줄지어 서 있는 형태입니다. 이 줄은 매우 규칙적인 경사 (직선) 를 이룹니다.

3. 이 논문의 발견: 정지어는 '뚱뚱한 꼬리'를 가진다

연구자들은 이 '콘서트'에서 소금 (정지어) 들만 따로 떼어내어 다시 줄을 세웠습니다. 그랬더니 놀라운 일이 벌어졌습니다.

  • 전체 단어 (콘서트 전체): 규칙적인 직선 경사 (지프의 법칙) 를 따릅니다.
  • 정지어만 (소금들만): 직선이 아니라 휘어진 곡선이 됩니다. 처음에는 평평하다가 끝으로 갈수록 급격히 떨어지는 모양입니다.

비유:
전체 콘서트에서는 스타부터 조연까지 규칙적으로 줄 서 있지만, 소금 (정지어) 만 따로 모아놓고 보면 아주 인기 있는 소금 몇 가지는 엄청나게 많이 쓰이지만, 그다음부터는 인기가 급격히 떨어지는 특이한 분포를 보인다는 것입니다.

4. 왜 그럴까? '선택의 확률' 모델

연구자들은 이 현상을 설명하기 위해 **'선택의 확률'**이라는 모델을 제안합니다.

  • 비유: 도서관에 책 (단어) 이 수만 권 꽂혀 있습니다. 우리는 이 책들 중에서 '정지어'라는 라벨을 붙일 책을 골라내야 합니다.
    • 가장 인기 있는 책 (순위 1~10): 거의 100% 확률로 정지어 라벨을 붙입니다. (예: 'the', 'a')
    • 중간 인기 책 (순위 100~1000): 확률이 서서히 떨어집니다. (예: 'make', 'go')
    • 인기 없는 책 (순위 10,000 이상): 거의 정지어 라벨을 붙일 확률이 0 에 가깝습니다.

이 논문은 이 '라벨 붙이기 확률'이 **힐 함수 (Hill's function)**라는 수학적 곡선을 따른다고 말합니다. 즉, 순위 (인기) 가 낮아질수록 정지어로 선택될 확률이 급격히 줄어드는 방식입니다.

5. 결과: 정지어 vs 비정지어

이 모델을 적용해서 분석한 결과는 다음과 같습니다.

  1. 정지어 (소금들): 위에서 말한 '선택 확률' 모델 때문에, 원래의 규칙적인 직선 (지프의 법칙) 이 **휘어진 곡선 (베타 순위 함수)**으로 변합니다. 마치 규칙적인 경사길에 언덕이 생긴 것처럼요.
  2. 비정지어 (주재료들): 정지어를 다 빼고 남은 '주재료'들만 보면, 이들도 원래의 직선 규칙을 따르지 않습니다. 대신 **2 차 함수 (포물선 모양)**에 더 가깝게 분포합니다.
    • 비유: 주재료들만 모아놓으면, 인기 있는 재료 (고양이, 달) 와 그다음 인기 있는 재료 (달려, 푸른) 사이의 간격이 정지어만큼 극단적이지 않고, 더 부드러운 곡선을 그리며 분포한다는 뜻입니다.

6. 결론: 언어는 단순하지 않다

이 연구는 **"단순히 '가장 많이 나오는 단어'라고 해서 모두 같은 법칙을 따르는 것은 아니다"**라고 말합니다.

  • 전체 단어: 규칙적인 직선 (지프의 법칙).
  • 정지어만: 휘어진 곡선 (베타 순위 함수).
  • 나머지 단어: 또 다른 곡선 (2 차 함수).

한 줄 요약:
언어를 분석할 때, 가장 흔한 단어들 (정지어) 은 마치 '소금'처럼 특정한 규칙 (선택 확률) 에 따라 골라져서, 전체의 규칙과는 다른 독특한 곡선을 그린다는 것을 수학적으로 증명했습니다. 이는 인공지능 (AI) 이 언어를 이해할 때, 단순히 빈도만 세는 것이 아니라 단어의 '역할'에 따라 분포가 어떻게 달라지는지 이해해야 함을 시사합니다.