VietJobs: A Vietnamese Job Advertisement Dataset

本文介绍了 VietJobs,这是首个包含 48,092 条覆盖越南全境的大规模公开越南语招聘广告数据集,旨在推动自然语言处理与劳动力市场分析研究,并通过基准测试评估了生成式大语言模型在职位分类和薪资预测任务中的表现。

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VietJobs 的新项目,你可以把它想象成是越南劳动力市场的"超级百科全书"或"数字显微镜"。

在此之前,研究人员想分析越南的招聘广告,就像试图在黑暗中拼凑一幅巨大的拼图,因为缺乏完整、公开的素材。而 VietJobs 的出现,直接把这幅拼图摆在了大家面前。

以下是用通俗语言和比喻对这篇论文的解读:

1. 这是什么?(VietJobs 数据集)

想象一下,研究人员从越南全境(34 个省市)的招聘网站(主要是 TopCV)上,像“蚂蚁搬家”一样收集了 48,092 条 真实的招聘广告。

  • 规模巨大:这不仅仅是几页纸,而是超过 1500 万 个单词的“文字海洋”。
  • 内容丰富:里面不仅有职位名称,还有薪资范围、所需技能、工作地点(从河内到胡志明市)、合同类型(全职、兼职、实习)等详细信息。
  • 分类清晰:研究人员把这些杂乱的信息整理成了 16 个主要行业类别(比如“商业销售”、“制造业”、“信息技术”等),就像把散乱的乐高积木按颜色和功能分好了类。

比喻:以前研究越南就业市场像是在“盲人摸象”,现在 VietJobs 给了大家一头完整的、被仔细解剖过的“大象”,让每个人都能看清它的每一个部位。

2. 为什么要做这个?(解决什么问题)

  • 填补空白:以前的研究大多集中在英语国家,越南语这种“资源较少”的语言缺乏高质量的数据。这就好比大家都在研究如何驾驶法拉利(英语数据),却没人知道怎么开越南的摩托车(越南语数据)。
  • 揭示真相:招聘广告里藏着很多社会秘密。比如,广告里是否隐含了性别歧视?是否对年轻人有偏好?薪资是否透明?有了这个数据集,AI 就能像侦探一样,从文字中找出这些隐藏的模式。

3. 他们做了什么实验?(AI 的“考试”)

研究团队把收集到的数据喂给了几种不同的人工智能大模型(LLM),让它们做两道“考题”:

  • 考题一:职位分类(Job Classification)

    • 任务:给 AI 看一段招聘描述,让它猜这是属于哪个行业的(比如:这是“会计”还是“程序员”?)。
    • 结果:有些 AI 像“博学的留学生”,虽然没专门学过越南语,但因为它读过全世界的书(多语言预训练),猜得很准(比如 Qwen2.5 和 Llama-SEA-LION)。有些专门学越南语的 AI 反而表现一般,这说明“见多识广”比“死记硬背”在某些情况下更有效。
  • 考题二:薪资预测(Salary Estimation)

    • 任务:给 AI 看职位、地点、经验要求,让它猜这个工作大概给多少钱。
    • 结果:这就像让 AI 当“估价师”。一开始 AI 猜得比较离谱(误差大),但经过“特训”(微调,即让 AI 专门看越南的招聘数据后),它的估价能力突飞猛进。特别是结合了更多数据的模型,猜得最准。

4. 发现了什么有趣的现象?

  • AI 也需要“因材施教”:那些专门为东南亚语言设计的 AI(如 Llama-SEA-LION),在理解越南语招聘广告中的细微差别(比如方言、文化习惯)时,表现得比通用的全球模型更稳健。
  • 数据越多,AI 越聪明:当 AI 不仅看 VietJobs,还结合了其他数据集一起训练时,它预测薪资的能力最强。这就像厨师尝遍了各种菜系,做出来的菜才最美味。
  • 薪资不透明:数据显示,虽然大部分广告写了薪资,但仍有近 30% 的职位写的是“面议”。这反映了越南劳动力市场的一种常态:老板喜欢留点谈判空间。

5. 有什么局限性?(不是完美的)

  • 来源单一:数据主要来自一个网站(TopCV),就像只通过一家超市了解整个国家的物价,可能会漏掉一些街头小摊(非正规就业)或特定行业的信息。
  • 信息噪音:有些广告是复制粘贴的模板,或者薪资写得不规范(比如只写范围不写具体数字),这会让 AI 偶尔“犯迷糊”。

6. 总结:这对我们意味着什么?

VietJobs 就像是为越南的就业市场安装了一个高精度的雷达

  • 对求职者:未来可能开发出更聪明的 AI 助手,帮你分析哪个行业薪资最高,或者你的简历在哪个城市最吃香。
  • 对研究者:提供了一个公开的平台,让大家能研究越南的职场文化、性别平等、区域差异等问题。
  • 对政策制定者:能更准确地掌握劳动力市场的脉搏,制定更合理的就业政策。

一句话总结
这篇论文就是给越南的招聘市场建了一座巨大的“数字图书馆”,并训练了一批 AI“图书管理员”,让它们能帮我们读懂这个市场的语言、规律和潜规则,让找工作变得更透明、更科学。