VietJobs: A Vietnamese Job Advertisement Dataset

ベトナムの全 34 省・市から収集された 48,092 件の求人広告を含む大規模データセット「VietJobs」を公開し、自然言語処理および労働市場分析の研究を支援するとともに、求人カテゴリ分類や給与推定といったタスクにおける大規模言語モデルの性能をベンチマークした。

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🌏 1. 何を作ったの?「ベトナムの求人情報の巨大な図書館」

まず、この研究チームは、ベトナム全土(34 の州・都市)から48,092 件もの求人情報を収集しました。これは単なるリストではなく、1500 万語にもなる膨大なテキストデータです。

  • どんなもの?
    ベトナムの「TopCV」という求人サイトから、ハノイからホーチミンまで、あらゆる地域の求人を集めました。
  • どんな情報が入ってる?
    職種(営業、エンジニア、医療など)、給与、必要なスキル、契約形態(正社員、パート、インターン)など、まるで**「ベトナムの労働市場の生きた地図」**のような情報が詰まっています。
  • なぜ重要?
    これまでベトナム語の求人情報を AI が分析できるような、大規模で整理されたデータはほとんどありませんでした。これは、ベトナムの「言葉の宝庫」として、AI 研究の新しい基準(ベンチマーク)を作ったようなものです。

🕵️‍♂️ 2. 何をしたの?「AI に 2 つのテストをさせた」

この巨大なデータを使って、最新の AI(大規模言語モデル)に 2 つの難しいテストを行いました。

テスト①:「この仕事、何の分野?」(職種分類)

  • 状況: AI に求人情報の文章を見せ、「これは『営業』の仕事か、『エンジニア』の仕事か」を当てさせます。
  • 例え: 料理のレシピを見せられて、「これは『和食』か『中華』か」を瞬時に判断するゲームです。
  • 結果:
    • 何も教えずに挑戦させる(ゼロショット)と、AI は少し戸惑いました。
    • しかし、「例を 3 つ見せてから」(Few-shot)挑戦させると、AI の正解率がグッと上がりました。
    • 特に**「Qwen2.5」「Llama-SEA-LION」**という AI が優秀でした。これらは「多言語を得意とする AI」で、ベトナム語の微妙なニュアンスも理解できるようです。

テスト②:「この仕事、いくらもらえる?」(給与推定)

  • 状況: 「職種」「場所」「経験年数」などの情報を見て、「月給はどれくらいか(例:1500 万ドン)」を予想させます。
  • 例え: 車の年式、走行距離、色を見て、「この車はいくらで売れるか」を査定する仕事です。
  • 結果:
    • AI は最初は「100 万ドン」や「10 億ドン」といった的外れな金額を言ったりしましたが、**「過去の給与データで学習(ファインチューニング)」**させると、かなり正確に予測できるようになりました。
    • 特に**「Llama-SEA-LION」**という、東南アジアに特化した AI が、どの設定でも最も安定した成績を残しました。

🧠 3. 発見した「意外な真実」

この実験から、いくつか面白いことが分かりました。

  1. 「ベトナム語専門の AI」より「多言語 AI」が強い場合がある
    一見すると、ベトナム語だけを勉強した AI が一番得意そうに思えますが、実は**「世界中の言語を勉強した AI」**の方が、求人情報のような複雑な文章をうまく理解して分類できました。これは、多様なデータで鍛えられた AI の「汎用性」の強さを示しています。
  2. 「例を見せる」のが一番のコツ
    最初から全部教える(学習させる)よりも、「こんな例がありますよ」と 3 つくらい見せてから任せる方が、AI は素早くルールを掴んで上手に働きました。
  3. 給与は「地域」や「業界」でバラつきが大きい
    データを見ると、同じ職種でも都市部と地方、あるいは業界によって給与の幅が広いです。AI はこの「ばらつき」を学習することで、より現実的な予測ができるようになりました。

🚧 4. 注意点と今後の展望(欠点と未来)

もちろん、完璧ではありません。

  • データの偏り: 集めたデータは「TopCV」という 1 つのサイトからなので、他の業界や informal(非公式)な仕事が含まれていない可能性があります。まるで「東京の求人情報しか集めていないのに、日本全体の労働市場を語っている」ような状態です。
  • 給与の曖昧さ: 求人によっては「給与は相談」と書かれており、AI が正確な数字を当てるのが難しいケースもあります。

今後の目標:
このデータセットをさらに広げて、他のサイトからも情報を集めたり、AI に「なぜその給与なのか」を説明させたりする研究が進められるでしょう。

💡 まとめ

この論文は、**「ベトナムの求人情報という巨大な宝庫を AI 用に整理し、最新の AI がその中から『仕事の種類』や『給与』をどれだけ上手に読み取れるか」**を実証したものです。

AI がベトナムの労働市場を理解する第一歩となり、将来的には「求職者に最適な仕事を紹介する AI」や「労働市場の偏りを防ぐための分析ツール」を作るための重要な基礎データとなりました。

まるで、**「ベトナムの労働市場という複雑なジャングルを、AI という新しいコンパスで探検し始めた」**ような研究だと言えます。