An Automatic Text Classification Method Based on Hierarchical Taxonomies, Neural Networks and Document Embedding: The NETHIC Tool

Dit artikel beschrijft NETHIC, een geautomatiseerde tekstclassificatiemethode die schaalbare neurale netwerken combineert met hiërarchische taxonomieën en documentembedding om een efficiënt en effectief classificatiesysteem te realiseren.

Luigi Lomasto, Rosario Di Florio, Andrea Ciapetti, Giuseppe Miscione, Giulia Ruggiero, Daniele Toti

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, chaotische bibliotheek hebt. In deze bibliotheek liggen miljoenen boeken (tekstbestanden) door elkaar: van recepten en sportnieuws tot wetenschappelijke artikelen en verhalen over geschiedenis. Als je één boek wilt vinden, is het zoeken zonder een systeem een nachtmerrie.

Dit artikel beschrijft een slimme robot genaamd NETHIC die deze bibliotheek in orde brengt. Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. De Grote Kaart (De Hiërarchie)

In plaats van alle boeken in één grote stapel te gooien, gebruikt NETHIC een grote, gestructureerde kaart (een taxonomie).

  • De analogie: Denk aan een reuzenstamboom of een grote boom.
    • De wortels zijn de heel brede onderwerpen (bijv. "Wetenschap", "Sport", "Kunst").
    • De takken worden smaller en specifieker (bijv. binnen "Sport" heb je "Voetbal", "Tennis").
    • De bladeren zijn de allerlaatste, specifieke vakjes waar de boeken precies in passen.

NETHIC gebruikt deze boom om te weten waar hij moet zoeken. Hij gooit niet zomaar een boek in de "Sport"-bak, maar kijkt eerst of het over "Voetbal" of "Zwemmen" gaat.

2. De Twee Slimme Hulpjes (BOW en Doc2Vec)

Om te begrijpen wat er in een boek staat, gebruikt NETHIC twee verschillende manieren om te lezen.

  • Hulpje 1: De Woordteller (Bag-of-Words)
    Dit is de oude, bewezen methode. Het telt gewoon hoe vaak bepaalde woorden voorkomen.

    • Voorbeeld: Als het woord "doelpunt" vaak voorkomt, denkt de robot: "Ah, dit gaat over voetbal!"
    • Nadeel: Soms is het niet genoeg. Het woord "bank" kan een zitmeubel zijn of een geldinstelling. Alleen tellen helpt niet altijd om het verschil te zien.
  • Hulpje 2: De Betekenis-Scanner (Doc2Vec)
    Dit is de nieuwe, geavanceerde toevoeging in dit artikel. Dit is alsof de robot niet alleen naar woorden kijkt, maar naar de sfeer en betekenis van de hele zin.

    • Voorbeeld: Als een tekst gaat over "pijn", "verslaving" en "herstel", snapt Doc2Vec dat dit over "gezondheid" gaat, zelfs als het woord "ziekte" niet voorkomt. Het begrijpt de context.

De Gouden Combinatie:
De onderzoekers ontdekten dat NETHIC het beste werkt als hij beide hulpjes tegelijk gebruikt.

  • De "Woordteller" zorgt voor de harde feiten.
  • De "Betekenis-Scanner" zorgt voor het begrip van de nuance.
    Samen zijn ze veel slimmer dan apart. Het is alsof je een detective bent die zowel de vingerafdrukken (woorden) als de motieven (betekenis) bekijkt.

3. Hoe de Robot Leert (De Training)

NETHIC is niet één grote, domme computer. Het is een team van specialisten.

  • Er is een "Hoofd" dat alleen kijkt naar de grote categorieën (Sport vs. Kunst).
  • Als het hoofd denkt: "Dit is Sport", geeft hij het boek door aan een specialist voor Sport.
  • Die specialist kijkt dan weer: "Is dit Voetbal of Tennis?" en geeft het door aan de juiste sub-specialist.

Dit heet een hiërarchisch systeem. Het voorkomt dat de robot verward raakt. Als je een boek over "Tennis" hebt, hoeft de "Kunst-specialist" er niet naar te kijken. Dat bespaart tijd en voorkomt fouten.

4. Wat is er nieuw in dit artikel?

Vroeger gebruikte NETHIC alleen de "Woordteller". In dit artikel hebben de makers de "Betekenis-Scanner" (Doc2Vec) toegevoegd.

  • Het resultaat: De robot maakt nu minder fouten. Hij kan beter onderscheid maken tussen boeken die op elkaar lijken (bijvoorbeeld een boek over "gezond eten" versus een boek over "verslaving aan eten").
  • Voorbeeld uit het artikel: Een tekst over een mineraal (Bukovskyite) werd eerst misschien verkeerd ingedeeld. Met de nieuwe methode ziet de robot direct: "Oh, dit gaat over geologie én industrie," en plaatst het precies in de juiste hoek.

Samenvatting in één zin

NETHIC is een slimme bibliotheekrobot die, door te combineren van het tellen van woorden en het begrijpen van de betekenis, samen met een team van specialisten, miljoenen teksten perfect in de juiste kastjes plaatst.

Waarom is dit belangrijk?
In een wereld vol met onbeperkte informatie (zoals internet en sociale media) helpt dit systeem om de chaos te ordenen, zodat mensen sneller vinden wat ze zoeken en bedrijven hun data beter kunnen gebruiken.