The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora

Each language version is independently generated for its own context, not a direct translation.

📚 1. 도서관 사서의 모험: "인터넷이라는 거대한 바다"

연구자들은 남슬라브어권 국가들의 인터넷 (.si, .hr, .bg 등) 을 거대한 바다라고 상상했습니다. 2 년 전 (1.0 버전), 그들은 이 바다에서 물고기 (텍스트) 를 잡아서 거대한 **수족관 (데이터 모음집)**을 만들었습니다. 그 수족관은 이미 언어 연구자들에게 큰 인기를 끌었습니다.

하지만 연구자들은 "2 년이 지났으니 바다에는 새로운 물고기들이 많이 생겼을 거야!"라고 생각했습니다. 그래서 그들은 2 년 만에 다시 그 바다로 가서 (2.0 버전) 다시 물고기를 잡았습니다.

🎁 2. 놀라운 선물: "새로운 물고기 80%"

두 번째 수확을 해보니 정말 놀라운 일이 벌어졌습니다.

크기: 1.0 버전보다 약 1.5 배 더 큰 거대한 수족관이 되었습니다. (약 170 억 단어, 3,800 만 개의 텍스트!)
새로움: 가장 놀라운 점은 이전 수족관에 있던 물고기의 80% 가 사라지고, 완전히 새로운 물고기들로 채워졌다는 것입니다.
- 비유: 2 년 전의 뉴스 기사를 모두 지우고, 그 자리에 완전히 새로운 뉴스만 채워 넣은 것과 같습니다. 인터넷은 정말 빠르게 변하고, 새로운 내용이 끊임없이 쏟아져 나온다는 뜻입니다.

🏷️ 3. 라벨링의 마법: "무엇에 대한 글일까?"

연구자들은 잡힌 텍스트 하나하나에 두 가지 라벨을 붙였습니다.

장르 (Genre): 이 글이 뉴스인지, 포럼 글인지, 광고인지, 법률 문서인지 분류했습니다. (예: 모든 언어에서 뉴스가 가장 많았어요!)
주제 (Topic): 뉴스라면 어떤 내용인지 분류했습니다. (예: 스포츠, 정치, 경제, 연예 등).
- 결과: 남슬라브어권 인터넷의 뉴스는 거의 대부분 스포츠, 정치, 경제, 문화, 인간 이야기에 집중되어 있었습니다. 마치 전 세계 뉴스가 비슷한 주제를 다루는 것과 비슷하죠.

⚠️ 4. 아픔 (Pains): "로봇이 쓴 가짜 뉴스의 습격"

하지만 여기에는 어두운 그림자가 있었습니다. 연구자들이 인터넷을 다시 뒤져보니, 2 년 전보다 '나쁜' 사이트들이 훨씬 더 많이 잡혔습니다.

문제: AI 가 자동으로 글을 써서 만든 사이트나, 기계 번역으로 된 쓰레기 같은 글들이 급격히 늘어났습니다.
비유: 2 년 전에는 수족관에 진짜 물고기가 99% 였다면, 2 년 후에는 **가짜 플라스틱 물고기 (AI 생성 텍스트)**가 15% 나 차지하게 된 것입니다.
해결책: 연구자들은 이 가짜 물고기들을 걸러내기 위해 사람이 직접 가장 많이 나오는 사이트들을 하나하나 검사해야 했습니다. AI 가 글을 더 잘 쓸수록, 우리가 더 꼼꼼하게 걸러내야 한다는 교훈입니다.

📐 5. 빠른 예측법: "주소만 봐도 알 수 있을까?"

텍스트가 겹치는지 확인하려면 모든 글을 비교해야 하는데, 이는 거대한 도서관의 모든 책을 한 장씩 비교하는 것처럼 시간이 너무 오래 걸립니다.

발견: 연구자들은 "글의 내용이 겹치면, 그 글이 있던 웹사이트 주소 (URL) 도 겹칠 확률이 높다"는 사실을 발견했습니다.
해결책: 그래서 그들은 주소가 겹치는 비율만 봐도, 글이 겹치는 비율을 대략적으로 예측할 수 있는 공식을 만들었습니다.
- 비유: 모든 책을 다 읽지 않아도, 책장 번호 (주소) 가 겹치는지 확인하는 것만으로도 "아, 이 책장은 거의 새로운 책들로 채워졌구나"라고 짐작할 수 있게 된 것입니다.

🎯 결론: "지속적인 수확이 필요하다"

이 논문은 우리에게 두 가지 중요한 메시지를 줍니다.

인터넷은 빠르게 변한다: 2 년만 지나도 인터넷의 내용은 거의 새로 바뀝니다. 그래서 언어 데이터를 모으려면 2 년마다 다시 인터넷을 뒤져야 최신 데이터를 얻을 수 있습니다.
품질 관리가 필수다: AI 가 글을 더 잘 쓰게 되면서 인터넷에는 '쓰레기'도 함께 늘어납니다. 그래서 사람의 손으로 꼼꼼하게 걸러내는 작업이 더 중요해졌습니다.

결론적으로, 이 연구는 남슬라브어권 언어를 위한 최신, 최대, 가장 깨끗한 언어 데이터 보물창고를 완성했고, 앞으로 어떻게 이 보물창고를 유지하고 확장할지에 대한 지도를 그려준 것입니다.

The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora

📚 1. 도서관 사서의 모험: "인터넷이라는 거대한 바다"

🎁 2. 놀라운 선물: "새로운 물고기 80%"

🏷️ 3. 라벨링의 마법: "무엇에 대한 글일까?"

⚠️ 4. 아픔 (Pains): "로봇이 쓴 가짜 뉴스의 습격"

📐 5. 빠른 예측법: "주소만 봐도 알 수 있을까?"

🎯 결론: "지속적인 수확이 필요하다"

논문 요약: 남슬라브어권 iterative 웹 코퍼스 크롤링의 성과와 과제 (CLASSLA-web 2.0)

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

5. 의의 및 결론 (Significance)

The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora

📚 1. 도서관 사서의 모험: "인터넷이라는 거대한 바다"

🎁 2. 놀라운 선물: "새로운 물고기 80%"

🏷️ 3. 라벨링의 마법: "무엇에 대한 글일까?"

⚠️ 4. 아픔 (Pains): "로봇이 쓴 가짜 뉴스의 습격"

📐 5. 빠른 예측법: "주소만 봐도 알 수 있을까?"

🎯 결론: "지속적인 수확이 필요하다"

논문 요약: 남슬라브어권 iterative 웹 코퍼스 크롤링의 성과와 과제 (CLASSLA-web 2.0)

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Enhancing Safety of Large Language Models via Embedding Space Separation

RedacBench: Can AI Erase Your Secrets?

Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models