FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

FreeTxt-Vi ist ein kostenloses, webbasiertes Toolkit, das eine integrierte Pipeline für die Segmentierung, Sentiment-Analyse und Zusammenfassung von vietnamesisch-englischen Texten bietet und dabei durch eine hybride Segmentierungsstrategie sowie feinabgestimmte Transformer-Modelle eine wettbewerbsfähige Leistung erzielt, um die textbasierte Forschung in unterrepräsentierten Sprachen zu erleichtern.

Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Haufen aus Briefen, Feedback-Zetteln und Umfragen. Manche sind auf Englisch, andere auf Vietnamesisch. Jetzt wollen Sie herausfinden: Was sagen die Leute eigentlich? Sind sie glücklich oder wütend? Was sind die wichtigsten Themen? Und wie können wir das alles schnell zusammenfassen, ohne jeden einzelnen Zettel mit der Hand zu lesen?

Das ist genau das Problem, das FreeTxt-Vi löst. Hier ist eine einfache Erklärung, wie dieses Werkzeug funktioniert, gemischt mit ein paar bildhaften Vergleichen:

1. Der Übersetzer, der auch "Zerlege-Meister" ist

Vietnamesisch ist eine besondere Sprache. Im Englischen oder Deutschen sind die Wörter durch Leerzeichen getrennt (wie Perlen auf einer Kette). Im Vietnamesischen sind es oft Silben, die wie eine lange Kette ohne Unterbrechung daherkommen. Ein Computer sieht das oft als einen riesigen, unleserlichen Block.

  • Die Analogie: Stellen Sie sich vor, Sie bekommen einen riesigen, zusammengeklebten Papierstreifen mit einem ganzen Roman darauf, aber ohne Leerzeichen. Um ihn zu lesen, müssen Sie ihn erst in die richtigen Wörter zerreißen.
  • Die Lösung: FreeTxt-Vi nutzt einen speziellen "Zerlege-Meister" (eine Kombination aus VnCoreNLP und einer modernen KI-Technik namens BPE). Er schneidet den Text genau dort durch, wo die Wörter enden, und sorgt dafür, dass der Computer versteht: "Ah, das ist ein Wort, das ist ein Satz." Ohne diesen Schritt wäre alles nur ein Haufen Kauderwelsch.

2. Der Emotions-Detektiv

Nachdem der Text zerkleinert wurde, muss das System herausfinden: Ist der Schreiber fröhlich, traurig oder wütend?

  • Die Analogie: Stellen Sie sich vor, Sie haben einen sehr gut ausgebildeten Detektiv, der nicht nur auf Englisch, sondern auch auf Vietnamesisch fließend spricht. Er liest nicht nur die Wörter, sondern spürt die Stimmung dahinter.
  • Die Lösung: Das System nutzt eine trainierte KI (ein "TabularisAI"-Modell), die gelernt hat, ob jemand "sehr positiv" oder "sehr negativ" schreibt. Es zeigt Ihnen dann sofort ein buntes Diagramm an: "Schauen Sie, 60 % der Leute sind glücklich, 20 % sind wütend." Das geht viel schneller, als wenn Sie tausende Kommentare selbst lesen müssten.

3. Der Zusammenfassungs-Künstler (Der "Zauberer")

Oft sind die Antworten so lang und verworren, dass man den Wald vor lauter Bäumen nicht sieht. FreeTxt-Vi bietet zwei Arten, das zu lösen:

  • Der Schere-Mann (Extraktive Zusammenfassung): Er sucht die besten Sätze aus dem Text aus und klebt sie zu einer kurzen Version zusammen. Er nimmt nichts Neues hinzu, sondern hebt nur das Wichtigste hervor.
  • Der Zauberer (Abstraktive Zusammenfassung): Hier kommt ein moderner KI-Zauberer (Qwen2.5) ins Spiel. Er liest den ganzen Text, versteht die Geschichte und schreibt dann eine neue, kurze Zusammenfassung in eigenen Worten.
    • Das Besondere: Sie können dem Zauberer sogar einen Auftrag geben! Sagen Sie: "Fasse nur das zusammen, was die Leute über Umweltschutz sagen." Der Zauberer ignoriert dann alles andere und konzentriert sich nur auf dieses Thema. Das ist wie ein persönlicher Assistent, der genau das für Sie filtert, was Sie brauchen.

4. Die visuelle Landkarte (Wolken und Bäume)

Manchmal wollen Sie nicht lesen, sondern sehen.

  • Wortwolken: Stellen Sie sich eine Wolke vor, in der die wichtigsten Wörter groß und fett geschrieben sind, während unwichtige Wörter klein und blass sind. FreeTxt-Vi kann diese Wolken sogar so erstellen, dass sie zeigen, welche Wörter in Ihrem Text besonders "auffällig" sind im Vergleich zur normalen Sprache.
  • Wort-Bäume: Wenn Sie ein bestimmtes Wort suchen (z. B. "Schule"), zeigt Ihnen das System einen Baum, dessen Äste zeigen, welche Wörter vor und nach "Schule" stehen. So sehen Sie sofort, in welchem Kontext das Wort verwendet wird.

Warum ist das so wichtig?

Bisher gab es für Vietnamesisch kaum einfache Werkzeuge, die man ohne Programmierkenntnisse nutzen konnte. Es war wie ein Schloss, das nur mit einem komplizierten Schlüssel (Code) zu öffnen war.

FreeTxt-Vi ist wie ein Schlüsselbund für alle. Es ist kostenlos, läuft im Browser und verbindet die alte, bewährte Methode der Sprachanalyse mit der neuen, mächtigen KI. Es hilft Lehrern, Forschern und Sozialarbeitern, die Stimmen von Millionen Menschen zu verstehen, ohne selbst Linguisten oder Programmierer sein zu müssen.

Kurz gesagt: FreeTxt-Vi ist der Übersetzer, der Zerleger, der Emotions-Detektiv und der Zusammenfassungs-Künstler in einem – speziell dafür gemacht, die Lücke zwischen englischen und vietnamesischen Texten zu schließen und komplexe Daten in einfache, verständliche Bilder zu verwandeln.