VietJobs: A Vietnamese Job Advertisement Dataset

Il paper presenta VietJobs, il primo corpus pubblico su larga scala di annunci di lavoro vietnamiti contenente oltre 48.000 pubblicazioni, e ne valuta l'utilità per l'analisi del mercato del lavoro e l'elaborazione del linguaggio naturale attraverso il benchmarking di diversi modelli linguistici generativi su compiti di classificazione e stima salariale.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler capire come funziona il mercato del lavoro in Vietnam, ma invece di leggere milioni di annunci di lavoro noiosi e dispersi per il web, hai bisogno di una biblioteca magica che li raccoglie tutti, li organizza e ti permette di fare domande intelligenti.

Questo è esattamente ciò che fanno gli autori di questo paper con VietJobs.

Ecco una spiegazione semplice, usando qualche metafora creativa:

1. Il Problema: La "Giungla" degli Annunci

Fino a poco tempo fa, studiare gli annunci di lavoro in vietnamita era come cercare di capire il meteo guardando singole gocce di pioggia sparse in una foresta pluviale. C'era molta acqua (dati), ma era difficile vederne il modello. Inoltre, la lingua vietnamita è complessa (ha toni, come la musica, e mescola parole inglesi), il che rendeva difficile per i computer "capire" cosa significassero gli annunci.

2. La Soluzione: VietJobs, il "Super-Organizzatore"

Gli autori hanno creato VietJobs, che è come un grande archivio digitale (un dataset) che contiene 48.092 annunci di lavoro raccolti da tutto il Vietnam (dalle grandi città come Hanoi alle province più piccole).

  • La grandezza: È come se avessero letto e catalogato più di 15 milioni di parole.
  • La varietà: Hanno coperto 16 settori diversi, dai meccanici agli ingegneri informatici, fino ai traduttori.
  • Il dettaglio: Non hanno solo salvato il testo, ma hanno anche etichettato cose importanti come lo stipendio, il tipo di contratto e le competenze richieste.

3. L'Esperimento: I "Robot Inteligenti" (LLM)

Una volta costruita questa biblioteca, gli autori hanno messo alla prova dei robot intelligenti (chiamati modelli linguistici o LLM, come Qwen o Llama). Immagina questi robot come dottori specializzati che devono fare due diagnosi:

  • Diagnosi 1: "Che lavoro è?" (Classificazione)
    Il robot legge l'annuncio e deve indovinare a quale categoria appartiene (es. "È un lavoro di vendita o di ingegneria?").

    • Risultato: I robot più grandi e addestrati su molte lingue (come Qwen2.5) sono stati bravi, specialmente se gli davamo qualche esempio prima (come un insegnante che mostra un compito svolto).
  • Diagnosi 2: "Quanto pagano?" (Stima dello stipendio)
    Il robot deve indovinare lo stipendio basandosi solo sulla descrizione del lavoro.

    • Risultato: È stato più difficile. I robot hanno imparato molto meglio quando sono stati "allenati" specificamente su questi dati (come uno studente che ripassa gli appunti) rispetto a quando hanno solo "guardato" gli annunci senza preparazione. Il modello Llama-SEA-LION (progettato specificamente per l'Asia del Sud-Est) si è comportato come un campione, capendo meglio le sfumature locali.

4. Perché è importante? (La Metafora della Mappa)

Prima di VietJobs, studiare il lavoro in Vietnam era come cercare di navigare in un mare sconosciuto senza una mappa.
Ora, con questo dataset:

  • I ricercatori hanno una mappa dettagliata per vedere dove ci sono più opportunità o dove ci sono discriminazioni (es. annunci che chiedono "giovani" o "belli", cosa che succede spesso).
  • Le aziende potrebbero usare questi robot per capire meglio quanto pagare per certi ruoli.
  • La società può capire meglio come la lingua e la cultura influenzano chi viene assunto e chi no.

In Sintesi

Questo paper ci dice: "Abbiamo raccolto tutti gli annunci di lavoro vietnamiti in un unico posto, li abbiamo puliti e organizzati, e abbiamo testato i migliori robot AI per vedere se riescono a capire il mercato del lavoro vietnamita."

Il risultato è che sì, i robot possono farlo, ma funzionano meglio se sono stati "allenati" specificamente su questi dati e se conoscono bene la cultura locale. VietJobs è la prima grande base di dati pubblica che permette a chiunque di fare queste ricerche, aprendo la strada a un futuro in cui l'Intelligenza Artificiale aiuta a rendere il mercato del lavoro più trasparente ed equo.