VietJobs: A Vietnamese Job Advertisement Dataset

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de arbeidsmarkt in Vietnam een enorme, drukke markt is, vol met duizenden kraampjes die vacatures aanbieden. Tot nu toe was het voor onderzoekers en computers bijna onmogelijk om deze markt goed te begrijpen, omdat de informatie verspreid lag, in een taal (Vietnamees) die voor computers lastig is, en er geen grote, georganiseerde database bestond om naar te kijken.

Deze paper introduceert VietJobs: een gigantisch nieuw "spiegelbeeld" van die markt. Hier is een uitleg in gewone taal, met wat creatieve vergelijkingen:

1. De Grote Verzameling (Het Dataset)

Stel je voor dat je een fotograaf bent die een jaar lang elke dag naar die markt loopt en elke vacature opschrijft. Dat is wat de auteurs hebben gedaan.

Wat is het? Een verzameling van 48.092 vacatures uit heel Vietnam, van de noordelijke grens tot het zuiden.
Hoe groot is het? Het bevat meer dan 15 miljoen woorden. Dat is alsof je 30.000 dikke romans in één keer hebt.
Waarom is dit speciaal? Voorheen hadden onderzoekers alleen maar "kruimels" van data in het Vietnamees. Nu hebben ze een hele "koek" om op te kauwen. Het dekt 34 provincies en 16 verschillende beroepsgroepen, van verkoop en techniek tot zorg en landbouw.

2. De Uitdaging: De Taal is een Puzzel

Vietnamees is voor computers een beetje zoals een ingewikkeld legpuzzel.

Toon en samenstelling: Het is een toontaal (waarbij de toon de betekenis verandert) en woorden worden vaak samengevoegd. Bovendien wisselen mensen vaak tussen Vietnamees en Engels (bijvoorbeeld: "Ik zoek een developer voor een startup").
Het probleem: Computers vinden dit lastig te "lezen". De auteurs hebben dit dataset gemaakt om te helpen bij het oplossen van deze puzzel, zodat AI-systemen beter kunnen begrijpen wat er in een vacature staat.

3. De Proef: Kunnen Computers dit?

De auteurs hebben gekeken of moderne "super-intelligente" computers (Large Language Models of LLM's) twee dingen kunnen doen met deze data:

Opdracht A: De Beroeps-Soortherkenning
- De analogie: Stel je voor dat je een brief leest en moet raden: "Is dit een vacature voor een kok, een leraar of een ingenieur?"
- Het resultaat: De computers waren eerst een beetje verdwaald (ze raadden maar 30% goed). Maar toen ze een paar voorbeelden kregen (de "few-shot" methode), werden ze plotseling slim en raadden ze bijna de helft goed. De slimste computer (Qwen2.5) deed het het beste, zelfs zonder dat hij speciaal voor deze taak was getraind.
Opdracht B: Het Salaris Voorspellen
- De analogie: Dit is als een waarzegger die probeert te raden hoeveel geld iemand gaat verdienen, alleen op basis van de titel van de baan en de locatie.
- Het resultaat: Dit is heel lastig. Salarissen variëren enorm. De computers waren aanvankelijk erg onzeker (soms gaven ze een negatief salaris op, wat natuurlijk niet kan!). Maar toen ze extra leerden (door op meer data te worden getraind), werden ze veel beter. De computer die het beste presteerde was Llama-SEA-LION, een model dat specifiek is getraind op talen uit Zuidoost-Azië. Het was alsof een lokale gids de computer meenam in de buurt, waardoor hij de prijskaartjes beter begreep.

4. Waarom is dit belangrijk?

Dit project is niet alleen een lijstje met vacatures. Het is een nieuwe standaard.

Voor onderzoekers: Het is een gereedschapskist om te zien hoe de arbeidsmarkt verandert, of er discriminatie is (bijvoorbeeld op basis van leeftijd of geslacht) en hoe salarissen zich verhouden.
Voor de maatschappij: Het helpt om de "onzichtbare" kant van de Vietnamese economie zichtbaar te maken. Net zoals je een kaart nodig hebt om een stad te verkennen, hebben we nu deze dataset nodig om de arbeidsmarkt te begrijpen.

5. De Kijk op de Toekomst (Beperkingen)

Natuurlijk is het niet perfect.

De bron: Alle data komt van één website (TopCV). Dat is alsof je de hele markt alleen maar bekijkt vanaf één specifiek standpunt. Misschien missen we daardoor de kleine kraampjes in de achterstraten (informele banen).
Salarissen: Niet elke werkgever geeft een salaris op. Soms staat er "bespreekbaar", wat voor een computer lastig te vertalen is.

Conclusie

Kortom: VietJobs is de eerste keer dat iemand een complete, gedetailleerde foto heeft gemaakt van de Vietnamese online banenmarkt. Het helpt computers om de taal en de cultuur van Vietnam beter te begrijpen, en het legt de basis voor slimme tools die in de toekomst kunnen helpen bij het vinden van werk, het analyseren van lonen en het begrijpen van de economie. Het is een enorme stap vooruit voor kunstmatige intelligentie in deze regio.

VietJobs: A Vietnamese Job Advertisement Dataset

1. De Grote Verzameling (Het Dataset)

2. De Uitdaging: De Taal is een Puzzel

3. De Proef: Kunnen Computers dit?

4. Waarom is dit belangrijk?

5. De Kijk op de Toekomst (Beperkingen)

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

VietJobs: A Vietnamese Job Advertisement Dataset

1. De Grote Verzameling (Het Dataset)

2. De Uitdaging: De Taal is een Puzzel

3. De Proef: Kunnen Computers dit?

4. Waarom is dit belangrijk?

5. De Kijk op de Toekomst (Beperkingen)

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models