An Automatic Text Classification Method Based on Hierarchical Taxonomies, Neural Networks and Document Embedding: The NETHIC Tool

O artigo apresenta o NETHIC, uma ferramenta de classificação automática de texto que combina redes neurais escaláveis, taxonomias hierárquicas e incorporação de documentos para alcançar resultados eficazes e eficientes em corpora genéricos e específicos de domínio.

Luigi Lomasto, Rosario Di Florio, Andrea Ciapetti, Giuseppe Miscione, Giulia Ruggiero, Daniele Toti

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante e bagunçada, cheia de milhões de livros, artigos e notas soltas. O desafio é organizar tudo isso para que, quando alguém pergunte sobre "jardinagem", você não entregue um livro de "mecânica de carros" só porque ambos falam de "terra".

É exatamente esse o problema que o NETHIC resolve. O NETHIC é um "robô bibliotecário" inteligente que aprende a classificar textos automaticamente.

Aqui está como ele funciona, explicado de forma simples:

1. O Mapa do Tesouro (A Taxonomia)

Antes de começar, os criadores do NETHIC não deixaram o robô "chutar" onde colocar as coisas. Eles deram a ele um mapa hierárquico (uma árvore de conhecimento).

  • Como funciona: Pense em uma árvore genealógica. No topo, temos ramos grandes como "Ciência", "Esporte" ou "Negócios". Esses ramos se dividem em galhos menores, como "Biologia" ou "Futebol". E no final, nas pontas das folhas, temos os detalhes específicos, como "Futebol de Areia" ou "Fotossíntese".
  • O Truque: Em vez de tentar adivinhar em qual das milhares de "folhas" um texto se encaixa de uma só vez (o que seria um caos), o NETHIC sobe na árvore. Primeiro, ele decide se o texto é sobre "Esporte". Depois, ele desce para "Futebol". Só no final ele decide se é "Futebol de Areia". Isso evita confusão.

2. O Cérebro do Robô (Redes Neurais)

Para tomar essas decisões, o NETHIC usa Redes Neurais Artificiais.

  • A Analogia: Imagine que, para cada galho da árvore (cada categoria), existe um pequeno professor especialista.
    • O professor do topo (nível "Esporte") é um generalista. Ele sabe diferenciar "Esporte" de "Política", mas não sabe a diferença entre "Tênis" e "Vôlei".
    • O professor do galho "Tênis" é um especialista. Ele só vê textos que o professor de cima já classificou como "Tênis" e decide se é "Tênis de Saibro" ou "Tênis de Grama".
  • Por que isso é bom? Se você tentasse ensinar um único professor a saber tudo sobre tudo, ele ficaria confuso. Ao dividir o trabalho em muitos especialistas pequenos, o sistema fica mais rápido e preciso.

3. O Novo Superpoder (Document Embedding / Doc2Vec)

Aqui está a novidade principal deste trabalho. O NETHIC original funcionava como um contador de palavras (o método "Saco de Palavras" ou Bag-of-Words).

  • O Problema Antigo: Se você dissesse "banco", o robô antigo contava a palavra. Mas ele não sabia se era um "banco para sentar" ou um "banco financeiro". Ele via apenas a palavra, sem o contexto.
  • A Solução Nova (Doc2Vec): Os autores deram ao NETHIC um novo superpoder chamado Doc2Vec.
    • A Analogia: Imagine que, em vez de apenas contar as palavras, o robô agora lê o texto e cria uma "impressão digital" ou um "mapa de sentimentos" para o documento inteiro. Ele entende que "banco" em um texto sobre "dinheiro" tem uma cor diferente de "banco" em um texto sobre "parque".
    • Eles combinaram a contagem de palavras (o método antigo) com essa nova "impressão digital" (o método novo). É como se o robô tivesse dois pares de óculos: um que vê as palavras individuais e outro que vê o significado geral da frase.

4. O Resultado na Prática

Os pesquisadores testaram esse novo NETHIC com textos da Wikipedia.

  • O Teste: Eles deram textos sobre minerais estranhos e sobre problemas de alimentação.
  • O Sucesso:
    • Com o texto sobre um mineral chamado "Bukovskyite", o robô antigo poderia ter ficado perdido. O novo NETHIC, usando a "impressão digital" do texto, entendeu que falava de geologia e indústria de ferro, classificando corretamente.
    • Com um texto sobre "comer compulsivamente", o robô antigo poderia ter focado apenas na palavra "comida". O novo NETHIC entendeu o contexto de "vício" e "saúde", classificando-o melhor como um problema de saúde e vício, e não apenas como gastronomia.

Resumo da Ópera

O NETHIC é um sistema que organiza o caos da internet.

  1. Ele usa uma árvore de categorias para não se perder.
  2. Usa professores especialistas (redes neurais) em cada nível da árvore.
  3. E, agora, usa uma nova tecnologia (Doc2Vec) que permite que ele "leia" o significado do texto, e não apenas conte as palavras, como se ele tivesse ganhado a capacidade de entender o contexto e a intenção do autor.

O resultado? Um sistema mais inteligente, que erra menos e entende melhor o que as pessoas estão realmente escrevendo.