Each language version is independently generated for its own context, not a direct translation.
이 논문은 언어를 분석할 때 우리가 흔히 **'중요하지 않은 단어' (Stopwords)**라고 부르는 것들에 대해 흥미로운 통찰을 제공합니다.
쉽게 말해, **"왜 가장 많이 쓰이는 단어들의 순위와 빈도 그래프는 우리가 알고 있던 '지프의 법칙' (Zipf's Law) 과 다르게 보일까요?"**라는 질문에 답하는 연구입니다.
이 복잡한 수학적 연구를 일상적인 비유로 풀어서 설명해 드릴게요.
1. 배경: 언어의 '소금'과 '주재료'
우리가 글을 쓸 때, 'the', 'a', 'is', 'and', 'of' 같은 단어들은 문장의 뼈대를 잡는 '접착제' 역할을 하지만, 내용 자체를 전달하는 핵심은 아닙니다. 이를 **정지어 (Stopwords)**라고 부릅니다. 마치 요리에 들어가는 소금이나 물과 비슷합니다. 소금이 없으면 음식이 맛이 없겠지만, 소금만 먹으면 배불러도 맛은 없죠.
반면, '고양이', '달려', '푸른' 같은 단어는 주재료입니다.
2. 기존 통념: 지프의 법칙 (Zipf's Law)
기존 언어학에서는 모든 단어를 빈도순으로 나열하면, 1 위 단어의 빈도는 2 위 단어의 약 2 배, 3 위는 3 배 정도로 감소한다는 '지프의 법칙'이 성립한다고 믿었습니다.
- 비유: 만약 언어를 한 거대한 콘서트라고 한다면, 무대 중앙에 서 있는 스타 (가장 흔한 단어) 가 가장 많이 보이고, 그 옆으로 갈수록 인기가 적은 사람들이 줄지어 서 있는 형태입니다. 이 줄은 매우 규칙적인 경사 (직선) 를 이룹니다.
3. 이 논문의 발견: 정지어는 '뚱뚱한 꼬리'를 가진다
연구자들은 이 '콘서트'에서 소금 (정지어) 들만 따로 떼어내어 다시 줄을 세웠습니다. 그랬더니 놀라운 일이 벌어졌습니다.
- 전체 단어 (콘서트 전체): 규칙적인 직선 경사 (지프의 법칙) 를 따릅니다.
- 정지어만 (소금들만): 직선이 아니라 휘어진 곡선이 됩니다. 처음에는 평평하다가 끝으로 갈수록 급격히 떨어지는 모양입니다.
비유:
전체 콘서트에서는 스타부터 조연까지 규칙적으로 줄 서 있지만, 소금 (정지어) 만 따로 모아놓고 보면 아주 인기 있는 소금 몇 가지는 엄청나게 많이 쓰이지만, 그다음부터는 인기가 급격히 떨어지는 특이한 분포를 보인다는 것입니다.
4. 왜 그럴까? '선택의 확률' 모델
연구자들은 이 현상을 설명하기 위해 **'선택의 확률'**이라는 모델을 제안합니다.
- 비유: 도서관에 책 (단어) 이 수만 권 꽂혀 있습니다. 우리는 이 책들 중에서 '정지어'라는 라벨을 붙일 책을 골라내야 합니다.
- 가장 인기 있는 책 (순위 1~10): 거의 100% 확률로 정지어 라벨을 붙입니다. (예: 'the', 'a')
- 중간 인기 책 (순위 100~1000): 확률이 서서히 떨어집니다. (예: 'make', 'go')
- 인기 없는 책 (순위 10,000 이상): 거의 정지어 라벨을 붙일 확률이 0 에 가깝습니다.
이 논문은 이 '라벨 붙이기 확률'이 **힐 함수 (Hill's function)**라는 수학적 곡선을 따른다고 말합니다. 즉, 순위 (인기) 가 낮아질수록 정지어로 선택될 확률이 급격히 줄어드는 방식입니다.
5. 결과: 정지어 vs 비정지어
이 모델을 적용해서 분석한 결과는 다음과 같습니다.
- 정지어 (소금들): 위에서 말한 '선택 확률' 모델 때문에, 원래의 규칙적인 직선 (지프의 법칙) 이 **휘어진 곡선 (베타 순위 함수)**으로 변합니다. 마치 규칙적인 경사길에 언덕이 생긴 것처럼요.
- 비정지어 (주재료들): 정지어를 다 빼고 남은 '주재료'들만 보면, 이들도 원래의 직선 규칙을 따르지 않습니다. 대신 **2 차 함수 (포물선 모양)**에 더 가깝게 분포합니다.
- 비유: 주재료들만 모아놓으면, 인기 있는 재료 (고양이, 달) 와 그다음 인기 있는 재료 (달려, 푸른) 사이의 간격이 정지어만큼 극단적이지 않고, 더 부드러운 곡선을 그리며 분포한다는 뜻입니다.
6. 결론: 언어는 단순하지 않다
이 연구는 **"단순히 '가장 많이 나오는 단어'라고 해서 모두 같은 법칙을 따르는 것은 아니다"**라고 말합니다.
- 전체 단어: 규칙적인 직선 (지프의 법칙).
- 정지어만: 휘어진 곡선 (베타 순위 함수).
- 나머지 단어: 또 다른 곡선 (2 차 함수).
한 줄 요약:
언어를 분석할 때, 가장 흔한 단어들 (정지어) 은 마치 '소금'처럼 특정한 규칙 (선택 확률) 에 따라 골라져서, 전체의 규칙과는 다른 독특한 곡선을 그린다는 것을 수학적으로 증명했습니다. 이는 인공지능 (AI) 이 언어를 이해할 때, 단순히 빈도만 세는 것이 아니라 단어의 '역할'에 따라 분포가 어떻게 달라지는지 이해해야 함을 시사합니다.