VietJobs: A Vietnamese Job Advertisement Dataset

이 논문은 베트남 전역의 34 개 주에서 수집된 48,092 개의 구직 공고로 구성된 대규모 공개 데이터셋 'VietJobs'을 소개하고, 이를 기반으로 직업 분류 및 급여 추정 과제를 수행한 생성형 LLM 들의 성능을 평가하여 베트남 NLP 및 노동 시장 분석 연구의 새로운 기준을 제시합니다.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 새로운 도서관 개관: 'VietJobs' (베트남 잡스)

베트남에는 수많은 구인광고가 인터넷에 떠돌아다닙니다. 하지만 이전까지는 이 광고들이 너무 흩어져서, 연구자들이 "어, 이 광고가 어떤 직종이야?", "월급은 얼마일까?"라고 분석하기가 정말 어려웠습니다. 마치 책이 없는 도서관이나, 책이 있지만 정리되지 않아서 찾을 수 없는 도서관 같았죠.

이 연구팀은 48,092 개의 구인광고를 모아서 **'VietJobs'**라는 거대한 디지털 도서관을 지었습니다.

  • 규모: 이 도서관에는 1,500 만 단어 이상의 텍스트가 들어있습니다.
  • 범위: 베트남의 34 개 주와 도시, 모든 산업 분야 (영업, 공학, 의료 등 16 가지) 를 다룹니다.
  • 특징: 단순히 글만 있는 게 아니라, 직무 분류, 월급 정보, 근무 형태 등 마치 **색인 (인덱스)**이 잘 되어 있어 찾기 쉽도록 정리했습니다.

2. 도서관 사서들의 시험: AI 가 이 책을 읽을 수 있을까?

이제 이 거대한 도서관을 제대로 이해할 수 있는 **'AI 사서 (대형 언어 모델, LLM)'**들을 불러모아 시험을 보았습니다. 두 가지 주요 과제를 주었죠.

과제 1: "이 광고는 어떤 직종이야?" (직무 분류)

  • 상황: AI 에게 구인광고 내용을 보여주고, "이건 '영업'이야, '공학'이야, 아니면 '의료'야?"라고 맞추게 했습니다.
  • 시험 방식:
    • 무작정 맞추기 (Zero-shot): 예시 없이 바로 맞혀보게 함.
    • 예시 보고 맞추기 (Few-shot): 몇 가지 예를 보여주고 패턴을 익혀서 맞혀보게 함.
    • 공부하고 맞추기 (Fine-tuned): 이 데이터로 직접 학습시켜서 맞혀보게 함.
  • 결과: Qwen2.5Llama-SEA-LION이라는 AI 들이 특히 잘했습니다. 특히 예시를 몇 개만 보여줘도 (Few-shot) 금방 패턴을 파악해서 정답을 맞췄습니다. 반면, 베트남어에 특화된 일부 AI 는 오히려 무작정 맞추기에서 더 잘하기도 했습니다. (이는 거대한 다국어 데이터를 배운 AI 가 언어의 맥락을 더 잘 이해한다는 뜻입니다.)

과제 2: "이 직무의 월급은 얼마일까?" (월급 예측)

  • 상황: "이 회사는 어디에 있고, 어떤 직원을 뽑으며, 경험이 얼마나 필요한지"를 보고 **월급 (베트남 동, VND)**을 예측하게 했습니다.
  • 결과:
    • 아무것도 배우지 않고 맞추기 (Zero-shot) 는 월급을 예측하는 데 실패했습니다. (월급은 숫자이고 맥락이 중요하기 때문입니다.)
    • 하지만 **다른 데이터까지 합쳐서 학습 (Fine-tuned)**시키니 정확도가 확 올라갔습니다.
    • 특히 Llama-SEA-LION이라는 AI 가 가장 똑똑하게 월급을 예측했습니다. 동남아시아 지역의 언어와 문화적 뉘앙스를 잘 이해하고 있기 때문입니다.

3. 왜 이 연구가 중요할까요? (일상적인 비유)

이 연구는 단순히 데이터를 모은 것을 넘어, 베트남의 노동 시장을 거울처럼 비추는 도구를 만든 것입니다.

  • 공정한 채용을 위한 거울: 구인광고에 "여자는 안 됩니다", "젊어야 합니다" 같은 편견이 숨어있을 수 있습니다. 이 AI 를 이용하면 그런 편견을 찾아내어 더 공정한 채용 환경을 만들 수 있습니다.
  • 월급의 투명성: "협상 가능"이라고만 적혀 있는 월급을 AI 가 분석하면, 실제 시장 가격이 얼마인지 알 수 있어 구직자들이 더 유리한 협상을 할 수 있습니다.
  • 저자원 언어의 승리: 영어는 데이터가 넘쳐서 AI 가 잘하지만, 베트남어는 그렇지 않았습니다. 이 연구는 베트남어라는 '작은 언어'도 AI 시대에 잘 따라갈 수 있다는 것을 증명했습니다.

4. 한 줄 요약

"베트남의 구인구직 시장을 정리한 거대한 데이터 도서관을 만들고, 그곳을 가장 잘 읽는 AI 사서들을 찾아낸 연구입니다. 이 기술은 앞으로 더 공정한 채용과 정확한 월급 분석을 가능하게 할 것입니다."

이 연구는 AI 가 단순히 글을 읽는 것을 넘어, 사회의 경제적 흐름을 이해하고 돕는 도구가 될 수 있음을 보여줍니다.