FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

FreeTxt-Vi is een gratis, open-source webtoolkit die geavanceerde Vietnamese-Engelse tekstanalyse mogelijk maakt voor niet-programmatoren door een geïntegreerde pipeline te bieden voor segmentatie, sentimentanalyse en samenvatting, die in evaluaties concurrerende resultaten behaalt en zo de toegang tot meertalig onderzoek voor ondervertegenwoordigde talen zoals het Vietnamees vergemakkelijkt.

Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme berg brieven, reacties en verhalen hebt. Sommige brieven zijn in het Engels, andere in het Vietnamees. Je wilt weten: Wat vinden mensen eigenlijk? Wat zijn de belangrijkste thema's? En wat is de algemene sfeer?

Vroeger moest je daarvoor een computerwetenschapper zijn of duizenden uren handmatig lezen. FreeTxt-Vi is als een slimme, gratis "vertaal- en analyse-machine" die dit voor jou doet, zonder dat je ook maar één regel code hoeft te schrijven.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Taalbarrière en de "Woordknopen"

Vietnamees is een prachtige taal, maar voor computers is het lastig. In het Engels schrijven we woorden met spaties eromheen (bijv. "cat" en "dog"). In het Vietnamees worden lettergrepen met spaties gescheiden, maar een woord bestaat vaak uit meerdere lettergrepen die samen één betekenis hebben.

  • De Analogie: Stel je voor dat je een zin leest als een lange ketting van losse schakels. Voor een computer is het alsof hij "học" (leren) en "sinh" (leven/student) als twee losse dingen ziet, terwijl het samen "student" betekent. Als de computer dit niet goed snapt, is de hele analyse verkeerd.

2. De Oplossing: FreeTxt-Vi als een Slimme Vertaler

FreeTxt-Vi is een online tool die twee dingen combineert:

  1. De "Scheermes" (Segmentatie): Het heeft een speciaal mesje (een combinatie van VnCoreNLP en BPE) dat de Vietnamees tekst precies op de juiste plek in stukjes knipt, zodat het computer begrijpt wat een echt woord is.
  2. De "Smaakproever" (Sentimentanalyse): Het kan lezen of mensen blij, boos of neutraal zijn. Het is getraind om zowel Engels als Vietnamees te proeven, alsof het een meertalige kok is die de smaak van beide keukens kent.
  3. De "Samenvatter" (Summarisatie): Als je 1000 reacties hebt, leest het ze allemaal en schrijft het een kort, pakkend verslag. Het is niet alleen een knippen-en-plakken machine; het kan de tekst herschrijven alsof het een mens is die de kernprijzen begrijpt.

3. De Magische Hulpmiddelen

De tool biedt meer dan alleen samenvatten. Het heeft een "speelgoedkist" met visuele hulpmiddelen:

  • Woordwolken: Stel je voor dat je woorden als ballonnen ziet zweven. Hoe groter de ballon, hoe vaker het woord voorkomt. FreeTxt-Vi maakt deze wolken niet alleen, maar kan ook laten zien welke woorden opvallend zijn (bijvoorbeeld: woorden die in jouw tekst veel vaker voorkomen dan in een normaal dagboek).
  • Woordbomen: Dit is als een boomstructuur. Je kiest een woord (bijv. "onderwijs") en de tool toont je alle takken: welke woorden komen er direct voor en welke er direct na? Zo zie je patronen in de taal.
  • De "Suggestie-Engine": Als je zoekt op een woord, suggereert de AI automatisch synoniemen of gerelateerde concepten. Het helpt je om de diepere betekenis te vinden, net als een slimme bibliothecaris die je zegt: "Heb je ook al gekeken naar dit andere boek?"

4. Waarom is dit belangrijk?

Tot nu toe waren de beste tools voor tekstanalyse alleen beschikbaar voor talen als Engels. Voor Vietnamees (gesproken door 80 miljoen mensen) was het vaak een "donkere kamer" waar je zelf de lichten moest aanleggen met ingewikkelde computercode.

FreeTxt-Vi doet de lichten aan voor iedereen. Het is gratis, open-source (iedereen mag meekijken en verbeteren) en geëvalueerd. Dat betekent dat de makers niet alleen zeggen "het werkt", maar dat ze het hebben getest tegen de beste bestaande systemen en bewezen hebben dat het net zo goed, of zelfs beter, werkt.

Samenvattend

FreeTxt-Vi is als een multitalige tolk en onderzoeker in één pakket. Het pakt de chaotische berg tekst op, snijdt de Vietnamees woorden netjes uit elkaar, begrijpt de gevoelens erachter, vat de kern samen en presenteert het resultaat in mooie, begrijpelijke grafieken. Het maakt geavanceerde taalonderzoek toegankelijk voor leraren, sociologen, beleidsmakers en iedereen die geïnteresseerd is in wat mensen zeggen, ongeacht of ze in het Engels of Vietnamees spreken.