FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

O artigo apresenta o FreeTxt-Vi, uma ferramenta web de código aberto que oferece um pipeline unificado de processamento de linguagem natural para análise de textos bilíngues vietnamita-inglês, integrando segmentação, análise de sentimentos e sumarização com desempenho competitivo e sem exigir conhecimentos de programação.

Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma caixa gigante cheia de cartas, diários e comentários escritos por pessoas de todo o mundo. Algumas cartas estão em inglês, outras em vietnamita, e muitas são uma mistura dos dois. O problema? A maioria das ferramentas de computador só sabe ler inglês perfeitamente. Se você tentar usar essas ferramentas para ler as cartas em vietnamita, elas ficam confusas, como se alguém estivesse tentando ler um livro onde as palavras estão todas grudadas sem espaços.

É aqui que entra o FreeTxt-Vi, uma nova "ferramenta mágica" criada por pesquisadores para resolver exatamente esse problema.

Aqui está uma explicação simples do que eles fizeram, usando algumas analogias do dia a dia:

1. O Tradutor e Organizador Universal (A Caixa de Ferramentas)

Pense no FreeTxt-Vi como um assistente pessoal superinteligente que fala fluentemente inglês e vietnamita. Antes, se você quisesse analisar milhares de respostas de uma pesquisa, precisava ser um programador expert para fazer o computador entender o texto.

O FreeTxt-Vi mudou isso. É como se eles tivessem construído um painel de controle de avião simplificado. Você só precisa "jogar" seus textos (sejam eles em planilhas, arquivos de texto ou digitados na hora) e o sistema faz o resto. Não importa se o texto é em inglês ou vietnamita; o sistema sabe lidar com os dois ao mesmo tempo, sem você precisar escrever uma única linha de código.

2. O Grande Desafio: Desembaraçar o "Novelo" (Segmentação)

O vietnamita é uma língua fascinante, mas difícil para computadores. Em inglês, as palavras têm espaços entre elas (ex: "gato preto"). No vietnamita, as sílabas são separadas por espaços, mas a "palavra" completa pode ser uma combinação delas (ex: "học sinh" significa "aluno", mas o computador vê "học" e "sinh" como duas coisas separadas).

É como tentar montar um quebra-cabeça onde as peças vêm misturadas com pedaços de outras imagens.

  • A Solução: O FreeTxt-Vi usa uma técnica híbrida (uma mistura de dois métodos) que age como um detetive especialista. Ele olha para o texto e diz: "Ah, 'học' e 'sinh' juntos formam a palavra 'aluno'". Isso permite que o computador entenda o significado real, não apenas as sílabas soltas.

3. O Detetive de Emoções (Análise de Sentimento)

Imagine que você tem 10.000 comentários de clientes sobre um novo produto. Ler um por um para ver se estão felizes ou bravos levaria semanas.
O FreeTxt-Vi tem um olho mágico que lê tudo em segundos. Ele não apenas diz "isso é positivo" ou "isso é negativo". Ele pode até dizer: "Isso é muito positivo" ou "Isso é levemente negativo".

  • O Truque: Eles treinaram esse "olho mágico" com milhões de exemplos em inglês e vietnamita. O resultado? Ele é tão bom que, às vezes, até supera os especialistas que só conhecem uma língua, porque aprendeu a entender o "tom" de voz em ambas as culturas ao mesmo tempo.

4. O Resumidor Mágico (Sumarização)

Muitas vezes, as pessoas escrevem textos longos e confusos. O FreeTxt-Vi tem dois modos de resumo:

  • Modo "Corte e Cola" (Extrativo): Ele pega as frases mais importantes do texto original e as coloca juntas. É como fazer um "highlight" no livro.
  • Modo "Reescritor Criativo" (Abstrativo): Aqui é onde a mágica acontece. Ele usa uma Inteligência Artificial avançada (como um escritor fantasma) para ler tudo e escrever um novo resumo, com palavras novas, mas mantendo o sentido.
  • O Diferencial: Você pode pedir ao sistema: "Resuma apenas o que as pessoas disseram sobre o preço" ou "Resuma apenas o que dizem sobre a qualidade". É como ter um assistente que foca apenas no tópico que você quer, ignorando o resto.

5. O Mapa Visual (Nuvens de Palavras e Árvores)

Para quem gosta de ver coisas bonitas, o sistema cria nuvens de palavras.

  • Se uma palavra aparece muito, ela fica gigante na nuvem.
  • O sistema também sabe quais palavras são "especiais" para aquele texto (como se fosse um detector de ouro), mostrando o que torna aquele grupo de textos único.
  • Além disso, ele cria árvores de palavras: você escolhe uma palavra (como "educação") e o sistema mostra todas as ramificações de como essa palavra é usada ao redor, como se você estivesse explorando um labirinto de ideias.

Por que isso é importante?

Até hoje, ferramentas assim eram como carros de luxo que só funcionavam em estradas de inglês. O FreeTxt-Vi é como um jipe todo-terreno que foi construído especificamente para as estradas do vietnamita, mas que também roda perfeitamente em inglês.

Isso é crucial porque o vietnamita é falado por mais de 80 milhões de pessoas, mas tinha poucas ferramentas para analisar seus dados. Agora, professores, pesquisadores, médicos e governos podem usar essa ferramenta para entender melhor o que as pessoas estão pensando, sentindo e precisando, sem precisar ser gênios da programação.

Em resumo: O FreeTxt-Vi é a ponte que conecta a tecnologia de ponta (Inteligência Artificial) com a realidade humana de milhões de pessoas, tornando os dados de texto acessíveis, compreensíveis e úteis para todos. E o melhor de tudo? É gratuito e aberto para qualquer pessoa usar!