An Automatic Text Classification Method Based on Hierarchical Taxonomies, Neural Networks and Document Embedding: The NETHIC Tool

Cet article présente NETHIC, un outil de classification automatique de textes qui combine des réseaux de neurones évolutifs et des taxonomies hiérarchiques, dont les performances ont été améliorées par l'intégration d'un mécanisme d'encodage de documents.

Luigi Lomasto, Rosario Di Florio, Andrea Ciapetti, Giuseppe Miscione, Giulia Ruggiero, Daniele Toti

Publié 2026-03-13
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌳 NETHIC : Le Grand Archiviste Numérique

Imaginez que vous avez reçu une montagne de lettres, de journaux et de notes, mais personne ne sait où les ranger. Si vous essayez de tout mettre dans un seul tiroir géant, vous ne retrouverez jamais rien. C'est exactement le problème que NETHIC (l'outil décrit dans ce papier) cherche à résoudre : trier automatiquement des milliers de textes pour les classer dans les bons endroits.

Voici comment cela fonctionne, en utilisant des analogies de la vie quotidienne.

1. La Carte au Trésor (La Taxonomie Hiérarchique)

Avant de trier, il faut un plan. NETHIC utilise une taxonomie, qui est comme un immense arbre généalogique ou un plan de supermarché.

  • Le haut de l'arbre (Racines) : Ce sont les grandes catégories, comme "Science", "Sport" ou "Histoire".
  • Les branches : Elles se divisent en sous-catégories, comme "Sport" devient "Football", "Natation", "Tennis".
  • Les feuilles : Ce sont les détails précis, comme "Le football professionnel en Italie".

Au lieu de demander à l'ordinateur de deviner où ranger un texte parmi 100 options d'un coup (ce qui le rendrait confus), NETHIC le guide étape par étape, comme un jeu de "Oui/Non" géant.

2. Le Double Regard de l'Intelligence Artificielle (Réseaux de Neurones + Doc2Vec)

C'est ici que la magie opère. NETHIC utilise deux types de "cerveaux" artificiels (des réseaux de neurones) qui travaillent ensemble.

  • Le premier regard (Le Compteur de Mots - BOW) :
    Imaginez un assistant qui lit un texte et compte simplement les mots. Si le mot "pomme" apparaît 10 fois, il pense "Fruits". C'est efficace, mais un peu bête. Si le texte parle de "l'arbre généalogique" (un arbre en informatique) et que l'assistant compte le mot "arbre", il pourrait croire qu'on parle d'une plante. Il manque le contexte.

  • Le deuxième regard (Le Traducteur de Sens - Doc2Vec) :
    C'est la nouvelle amélioration apportée par ce papier. Imaginez un second assistant, très cultivé, qui ne compte pas les mots, mais comprend le sens global de la phrase. Il sait que "pomme" dans un contexte de cuisine est différent de "pomme" dans un contexte de technologie (Apple).

    • L'analogie : Le premier assistant regarde les ingrédients d'une recette (les mots). Le deuxième assistant goûte le plat pour comprendre ce que c'est (le sens).

3. La Recette du Succès : Mélanger les deux

Le papier explique que NETHIC a d'abord utilisé seulement le "Compteur de Mots". C'était bien, mais pas parfait.
Ensuite, ils ont ajouté le "Traducteur de Sens" (Doc2Vec).

  • Le résultat : En combinant les deux, NETHIC devient un chef cuisinier expert. Il connaît les ingrédients et il comprend le goût final.
  • L'analogie : C'est comme si vous essayiez de reconnaître un ami.
    • Méthode ancienne : "Il porte un chapeau rouge et a des lunettes." (Peut être n'importe qui).
    • Méthode NETHIC améliorée : "Il porte un chapeau rouge, mais il marche comme mon ami Pierre et il rit de la même façon." (C'est bien Pierre !).

4. L'Expérience : Est-ce que ça marche ?

Les chercheurs ont testé leur outil avec des articles de Wikipédia (des textes sur tout et n'importe quoi).

  • Avant : L'outil se trompait parfois, confondant par exemple "Santé" avec "Famille" ou "Sport" avec "Nourriture".
  • Après : Avec l'ajout du "Traducteur de Sens", l'outil a fait 2 % de moins d'erreurs.
    • Pourquoi 2 % est énorme ? Imaginez un hôpital qui trie 1000 dossiers médicaux. 2 % de moins d'erreurs, c'est 20 patients de plus qui sont mis dans le bon service sans attendre.

5. Un exemple concret

Le papier donne un exemple drôle : un texte sur un minéral étrange appelé "Bukovskyite".

  • L'ancien système : Se demandait si c'était de la géologie ou de l'industrie.
  • Le nouveau système (NETHIC amélioré) : A compris que c'était à la fois de la géologie (c'est une pierre) ET de l'industrie sidérurgique (c'est utilisé dans la production de fer). Il a réussi à voir les deux facettes du texte, ce qui est très difficile pour un ordinateur.

En résumé

NETHIC est comme un bibliothécaire robotique super-intelligent.

  1. Il utilise un plan hiérarchique pour ne pas se perdre.
  2. Il utilise des réseaux de neurones pour lire les textes.
  3. Sa grande innovation est d'avoir ajouté une mémoire sémantique (Doc2Vec) qui lui permet de comprendre le sens des phrases, pas juste les mots.

Grâce à cette combinaison, il classe les documents plus vite, plus précisément et avec moins d'erreurs, ce qui nous aide à mieux gérer l'immense quantité d'informations que nous produisons chaque jour sur internet.