VietJobs: A Vietnamese Job Advertisement Dataset

Le papier présente VietJobs, le premier corpus public à grande échelle d'annonces d'emploi vietnamiennes, qui sert de nouvelle référence pour la recherche en TALN et l'analyse du marché du travail tout en évaluant les performances des modèles de langage génératifs sur des tâches de classification et d'estimation de salaires.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que le marché du travail vietnamien est une immense bibliothèque remplie de millions de petites annonces. Pendant longtemps, cette bibliothèque était un peu en désordre : les livres étaient éparpillés, certains étaient écrits dans un jargon difficile, et personne n'avait jamais pris le temps de les classer systématiquement pour les chercheurs.

C'est là qu'intervient VietJobs, le nouveau projet présenté dans cet article.

1. Qu'est-ce que VietJobs ? (Le Grand Inventaire)

Les chercheurs de l'Université VinUniversity ont créé VietJobs, qui est comme un super-organisateur numérique. Ils ont collecté 48 092 annonces d'emploi venant de tout le Vietnam, des grandes villes comme Hanoï et Hô Chi Minh-Ville jusqu'aux provinces les plus reculées.

  • L'analogie : Imaginez que vous avez pris des photos de toutes les vitrines de magasins d'un pays, puis que vous avez écrit sur un grand tableau blanc ce que chaque magasin vend, combien ils paient leurs employés et quelles compétences ils cherchent.
  • La taille : C'est énorme ! Cela représente plus de 15 millions de mots. C'est comme si vous aviez lu des milliers de livres d'un coup.
  • La diversité : Le dataset couvre 16 grands domaines (de la vente et du commerce à l'informatique, en passant par l'agriculture et la santé).

2. Pourquoi est-ce important ? (La Carte au Trésor)

Avant VietJobs, c'était comme essayer de naviguer dans la jungle vietnamienne sans carte. Les chercheurs en intelligence artificielle (IA) avaient du mal à comprendre le langage des offres d'emploi vietnamiennes parce qu'il y avait peu de données disponibles.

  • Le défi : Le vietnamien est une langue complexe (avec des tons, des mots composés et un mélange fréquent avec l'anglais). C'est comme essayer de résoudre un puzzle dont les pièces ont des formes bizarres.
  • La solution : VietJobs fournit la "boîte à outils" manquante. Il permet aux ordinateurs d'apprendre à lire, comprendre et analyser ces annonces pour mieux prédire les tendances du marché du travail.

3. Les deux grands jeux de l'IA (Les Tests)

Pour voir si cet outil fonctionne, les chercheurs ont demandé à plusieurs "cerveaux numériques" (des modèles d'intelligence artificielle) de jouer à deux jeux :

  • Jeu 1 : Le Tri des Cartes (Classification)

    • La mission : L'IA lit une annonce et doit dire : "C'est un job de comptable, de vendeur ou de développeur ?"
    • Le résultat : Certains modèles, comme Qwen et Llama-SEA-LION, sont devenus de véritables experts. Ils ont appris à trier les annonces avec une grande précision, surtout quand on leur a donné quelques exemples pour commencer (comme un prof qui montre un exemple avant un examen).
  • Jeu 2 : Le Devin de Salaire (Estimation)

    • La mission : L'IA doit deviner combien gagne un employé en se basant uniquement sur la description du poste.
    • Le défi : C'est difficile car les salaires varient énormément (de 1 million à 500 millions de Dong par mois !).
    • Le résultat : Là encore, les modèles entraînés sur ces données ont fait de gros progrès. Ils sont devenus capables de dire : "Ah, ce poste de chef d'équipe à Hanoï avec 5 ans d'expérience, ça doit tourner autour de 20 millions de Dong."

4. Ce qu'on a appris (Les Leçons)

L'étude a révélé quelques surprises intéressantes :

  • La force de la diversité : Les modèles d'IA qui ont été entraînés sur beaucoup de langues différentes (multilingues) se sont souvent mieux débrouillés que ceux entraînés uniquement sur le vietnamien. C'est comme un polyglotte qui comprend mieux les nuances culturelles qu'un locuteur natif qui n'a jamais voyagé.
  • L'apprentissage par l'exemple : Donner quelques exemples à l'IA avant de lui poser la question (ce qu'on appelle le "few-shot learning") a considérablement amélioré ses performances. C'est comme si on disait à un élève : "Regarde comment on résout ce problème, maintenant essaie le suivant."

5. Les limites (Les Zones d'Ombre)

Comme tout outil, VietJobs n'est pas parfait :

  • Une seule source : Toutes les annonces viennent d'un seul site web (TopCV). C'est comme si on étudiait le marché du travail en n'observant que les supermarchés d'une seule chaîne, en oubliant les petits marchés locaux ou les emplois informels.
  • Les salaires cachés : Parfois, les entreprises ne mettent pas le prix sur l'annonce (c'est "à négocier"), ce qui rend le jeu du devin de salaire plus difficile pour l'IA.

En résumé

VietJobs est une révolution pour la recherche au Vietnam. C'est la première fois qu'on offre aux scientifiques une carte détaillée et numérique du marché du travail vietnamien. Cela permet non seulement de mieux comprendre comment les gens sont embauchés, mais aussi de créer des outils d'IA plus justes et plus intelligents pour aider les chercheurs d'emploi et les entreprises à se trouver.

C'est un peu comme passer d'une exploration à l'aveugle dans une forêt dense à une promenade guidée avec une carte GPS précise !