VietJobs: A Vietnamese Job Advertisement Dataset

O artigo apresenta o VietJobs, o primeiro grande corpus público de anúncios de emprego vietnamitas com mais de 48 mil postagens, que serve como um novo marco para pesquisa em PLN e análise de mercado de trabalho, incluindo benchmarks de modelos de linguagem generativa para tarefas como classificação de categorias e estimativa de salários.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mercado de trabalho do Vietnã é uma cidade gigante e vibrante, cheia de milhões de pessoas procurando emprego e empresas procurando talentos. Durante anos, os pesquisadores tentaram entender como essa cidade funciona, mas tinham apenas um mapa desenhado à mão, cheio de buracos e feito em inglês, ignorando a língua local e os detalhes da cultura.

Este artigo apresenta o VietJobs, que é como se fosse o primeiro "Google Maps" completo e em alta definição desse mercado de trabalho vietnamita.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Grande Inventário (O Dataset)

Os autores (uma equipe de pesquisadores da VinUniversity) foram como colecionadores de borboletas, mas em vez de borboletas, eles coletaram 48.092 anúncios de emprego de todo o Vietnã.

  • A Escala: Eles não pegaram apenas alguns; pegaram anúncios de todas as 34 províncias do país. São mais de 15 milhões de palavras.
  • A Diversidade: É como se eles tivessem organizado uma biblioteca gigante onde cada livro é um anúncio de emprego. Tem desde vagas para "vendedores" e "mecânicos" (os mais comuns) até vagas raras para "tradutores" ou "agricultores".
  • O Tesouro Escondido: Diferente de outros bancos de dados que só tinham o título do emprego (ex: "Engenheiro"), este tem o texto completo, o salário (quando disponível) e os requisitos. É como ter a receita completa do bolo, e não apenas o nome do bolo.

2. O Desafio da Tradução e Organização

O texto original dos anúncios estava bagunçado. Alguns diziam "Analista Financeiro" e outros "Contador", mas eram a mesma coisa.

  • A Limpeza: Os pesquisadores agiram como jardineiros que podaram um bosque selvagem. Eles organizaram tudo em 16 categorias principais (como "Tecnologia", "Vendas", "Saúde"), criando um sistema de classificação que faz sentido para computadores e humanos.
  • O Salário: Eles também tentaram decifrar os salários. Muitos anúncios diziam "salário a combinar" (o que é um mistério), mas em 70% dos casos, havia números. Eles transformaram isso em dados claros para que pudéssemos ver quanto as pessoas ganham de verdade.

3. A Prova de Fogo (Testando a Inteligência Artificial)

Agora que eles tinham esse "mapa" perfeito, queriam ver se as Inteligências Artificiais (IAs) modernas conseguiam entendê-lo. Eles usaram IAs famosas (como Qwen, Llama e outras especializadas no Sudeste Asiático) para fazer duas tarefas:

  • Tarefa 1: O Detetive de Categorias

    • O Desafio: A IA lê o anúncio e tem que adivinhar: "Isso é vaga de TI ou de Vendas?".
    • O Resultado: As IAs que foram treinadas com exemplos (como um aluno que faz exercícios antes da prova) acertaram muito mais. A IA Qwen e a Llama-SEA-LION (uma IA feita especificamente para a Ásia) foram as melhores "detetives".
  • Tarefa 2: O Adivinho de Salários

    • O Desafio: A IA lê a vaga e tenta chutar: "Quanto essa pessoa vai ganhar?".
    • O Resultado: Isso é difícil, como tentar adivinhar o preço de uma casa só olhando a foto. Mas, quando as IAs foram "treinadas" com os dados do VietJobs e de outro banco de dados, elas ficaram muito melhores. A Llama-SEA-LION foi a campeã, mostrando que IAs que entendem a cultura local funcionam melhor do que as genéricas.

4. Por que isso importa? (A Analogia Final)

Antes deste trabalho, tentar analisar o mercado de trabalho vietnamita era como tentar ouvir uma conversa em um estádio lotado usando fones de ouvido com defeito. Você ouvia alguns sons, mas não entendia o contexto.

Com o VietJobs, os pesquisadores colocaram fones de ouvido de alta fidelidade na comunidade científica. Agora, eles podem:

  • Ouvir claramente quem está sendo contratado e onde.
  • Entender se há preconceito (como exigir "jovem e bonito" em vez de qualificação).
  • Criar ferramentas de IA que ajudam pessoas a encontrar empregos melhores e empresas a entenderem o que precisam.

Em resumo: Este artigo não é apenas sobre dados; é sobre dar voz e visibilidade a um mercado de trabalho enorme que antes era invisível para a tecnologia, permitindo que a inteligência artificial ajude a construir uma economia mais justa e eficiente no Vietnã.