Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die moet raden waar een kort bericht over gaat, maar het bericht is zo kort dat het bijna niets zegt. Bijvoorbeeld: "Naar het ziekenhuis." Is de persoon ziek? Bezoekt hij iemand? Of werkt hij daar? In het Engels is dit al lastig, maar in het Koreaans is het nog veel ingewikkelder.

Dit is precies het probleem dat de auteurs van dit paper proberen op te lossen met hun nieuwe model, LIGRAM. Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Korte Tekst" Moeilijkheid

Kort nieuws, zoekopdrachten of social media-berichten bevatten vaak te weinig context. In het Koreaans wordt dit nog erger omdat de taal agglutinerend is.

De Analogie: Stel je voor dat een woord in het Engels een Lego-blokje is. In het Koreaans zijn woorden als een lange, flexibele slinger van blokken die aan elkaar geplakt zijn. Als je een stukje van die slinger weghaalt (zoals een voegwoordje of een uitgang), verandert de hele betekenis, maar het blijft eruitzien als één woord.
Het probleem: Bestaande computersystemen zijn getraind op Engels. Ze kijken naar losse woorden, maar missen de subtiele "knooppunten" in de Koreaanse slinger die vertellen wat er echt gebeurt.

2. De Oplossing: LIGRAM (De Meester-Detective)

De auteurs hebben LIGRAM bedacht. Dit is geen gewone computer, maar een slimme detective die niet alleen naar de tekst kijkt, maar naar drie verschillende lagen van informatie tegelijk. Ze bouwen een grafiek (een soort netwerkkaart) in drie lagen:

De Morfem-Layer (De Letterlijke Bouwstenen):
- Vergelijking: In plaats van naar het hele woord te kijken, splitst de detective het woord op in zijn kleinste onderdelen (zoals "hond" + "loopt" + "niet").
- Waarom: Zo ziet hij precies welke stukjes informatie er ontbreken of welke betekenissen er verborgen zitten.
De POS-Layer (De Grammatica-Gids):
- Vergelijking: Dit is als een verkeersbordensysteem. Het vertelt de computer of een woord een naam, een werkwoord of een bijvoeglijk naamwoord is.
- Waarom: In korte Koreaanse zinnen worden vaak de "verkeersborden" (zoals partikels) weggelaten. Deze laag vult die gaten in door te raden: "Ah, dit woord moet hier een werkwoord zijn, dus de zin betekent X."
De Entiteit-Layer (De Ankers):
- Vergelijking: Dit zijn de bekende namen en plekken, zoals "Seoel", "Samsung" of "Dr. Kim".
- Waarom: Als je leest "Samsung" en "batterij", weet je al dat het over technologie gaat, zelfs als de rest van de zin vaag is. Deze laag fungeert als een anker om de betekenis vast te houden.

De Magie: LIGRAM combineert deze drie lagen tot één super-kaart. Hij ziet niet alleen de woorden, maar ook hoe ze grammaticaal aan elkaar hangen en welke bekende namen erin voorkomen.

3. De Extra Slimme Truc: SemCon (De "Groepeerder")

Nadat LIGRAM de tekst heeft gelezen, moet hij beslissen in welke categorie het hoort. Soms lijken twee berichten heel op elkaar, maar horen ze bij verschillende groepen (en andersom).

De Analogie: Stel je voor dat je een grote groep mensen in een zaal hebt. Sommigen dragen een rood T-shirt, anderen blauw. Maar in het donker (korte teksten) zie je de kleuren niet goed.
De oude methode: Zou zeggen: "Jij en jij lijken op elkaar, ga samen staan." Soms gaat dit mis.
De nieuwe methode (SemCon): Kijkt naar de sfeer van de groep. "Jullie praten allemaal over voetbal, dus jullie horen bij de rode groep, ook al dragen jullie verschillende kleding."
Hoe werkt het? Het model maakt een "smaakprofiel" van elk bericht. Als twee berichten een vergelijkbaar smaakprofiel hebben (zelfs als ze niet exact hetzelfde zeggen), worden ze dichter bij elkaar getrokken in de digitale ruimte. Dit maakt de grenzen tussen de categorieën veel scherper.

4. Wat is het Resultaat?

De auteurs hebben LIGRAM getest op vier verschillende Koreaanse datasets (nieuws, filmrecensies, zoekfragmenten en winkelreviews).

De Uitslag: LIGRAM deed het beter dan alle andere modellen, inclusief de zeer dure en krachtige "Grote Taalmodellen" (zoals GPT), maar dan met veel minder rekenkracht.
Waarom? Omdat LIGRAM specifiek is ontworpen voor de unieke structuur van het Koreaans. De grote modellen zijn als een universele sleutel die op veel sloten past, maar LIGRAM is een op maat gemaakte sleutel die precies in het Koreaanse slot past.

Samenvatting in één zin

LIGRAM is een slimme computer die korte Koreaanse teksten begrijpt door ze op te splitsen in hun bouwstenen, hun grammatica te analyseren en hun betekenis te groeperen, waardoor hij veel beter is in het raden van de juiste categorie dan eerdere systemen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Korte tekstclassificatie (Short Text Classification - STC) blijft een uitdagende taak in de Natural Language Processing (NLP), voornamelijk vanwege de schaarste aan contextuele informatie en gelabelde data. Bestaande methoden zijn echter grotendeels gericht op het Engels, waarbij de meeste benchmarks in het Engels zijn. Dit leidt tot een tekort aan methoden die rekening houden met de specifieke linguïstische en structurele eigenschappen van het Koreaans.

Het Koreaans is een agglutinerende taal met een flexibele woordvolgorde, waarbij betekenis wordt samengesteld op het niveau van morfemen (via partikels en uitgangen) en waar zinsdelen vaak worden weggelaten in korte teksten. Bestaande modellen, die vaak op woordniveau werken, kunnen deze subtiele grammaticale en semantische afhankelijkheden niet adequaat modelleren, wat resulteert in ambiguïteit en slechte prestaties bij korte teksten (zoals zoekopdrachten of nieuwsberichten).

Methodologie: LIGRAM

De auteurs stellen LIGRAM (Linguistically Informed Graph Model) voor, een hiërarchisch heterogeen grafmodel specifiek ontworpen voor Koreaanse korte teksten. Het model combineert linguïstisch geïnformeerde grafrepresentaties met semantisch contrastief leren.

1. Hiërarchisch Heterogeen Grafmodel

In plaats van één uniforme graf te gebruiken, construeert LIGRAM drie gespecialiseerde subgrafen die hiërarchisch worden geïntegreerd om de beperkte context te compenseren:

Morfem-graf ( $G_w$ ): Omdat Koreaans agglutinerend is, worden zinnen ontbonden in morfemen (in plaats van woorden) met behulp van de Kiwi-morfologische analyzer.
- Knooppunten: Morfemen.
- Kanten: Gedefinieerd door Pointwise Mutual Information (PMI) tussen co-occurrende morfemen.
- Doel: Het oplossen van de beperkingen van whitespace-tokenisatie en het vastleggen van semantische nabijheid op morfem-niveau.
POS-graf ( $G_p$ ): Grammaticale relaties worden expliciet gemodelleerd.
- Knooppunten: Parts-of-Speech (POS) tags.
- Kanten: Gebaseerd op PMI tussen co-occurrende POS-tags binnen een document.
- Doel: Het compenseren van de vaak weggelaten partikels en uitgangen in korte teksten door grammaticale structuren als knooppunten te modelleren.
Entiteitsgraf ( $G_e$ ):
- Knooppunten: Genoemde entiteiten (namen, locaties, organisaties) geëxtraheerd met een gespecialiseerd KPF-BERT-NER model.
- Kanten: Gebaseerd op cosine-sequentie tussen entiteitsvectoren.
- Doel: Het bieden van semantische ankers voor disambiguatie, zelfs bij zeer korte zinnen.

Elke subgraf wordt verwerkt door een Graph Convolutional Network (GCN). De documentrepresentaties worden vervolgens verkregen door hiërarchische pooling (gecombineerd met TF-IDF gewichten voor morfemen/POS en aanwezigheid voor entiteiten) en samengevoegd tot één documentvector.

2. Semantisch Contrastief Leren (SemCon)

Om de discriminatie tussen klassen te verbeteren, wordt een semantisch bewust contrastief leerframework toegepast:

In plaats van enkel op instance-niveau te werken (wat kan leiden tot het scheiden van semantisch gelijke zinnen door oppervlakkige verschillen), wordt elke documentvector omgezet in een pseudo-topic distributie via een Softmax-laag.
Documenten met dezelfde pseudo-topic worden behandeld als positieve paren, en documenten met verschillende topics als negatieve paren.
De contrastive loss ( $L_{con}$ ) wordt berekend om semantisch vergelijkbare documenten dichter bij elkaar te brengen in de embedding-ruimte, ongeacht hun oppervlakkige tekstuele verschillen.

3. Unified Loss Function

Het totale trainingsdoel is een combinatie van de standaard cross-entropy loss ( $L_{ce}$ ) voor classificatie en de contrastive loss ( $L_{con}$ ):
$L = L_{ce} + \lambda L_{con}$
Waarbij $\lambda$ de relatieve belangrijkheid van de contrastive loss reguleert.

Belangrijkste Bijdragen

LIGRAM Architectuur: Een nieuw hiërarchisch heterogeen grafmodel dat Koreaanse linguïstische eenheden (morfemen, POS-tags, entiteiten) expliciet integreert om structurele cues voor korte tekstclassificatie te vangen.
SemCon: Een semantisch bewust contrastief leermechanisme dat contrastieve paren vormt op basis van pseudo-topic distributies, wat leidt tot duidelijkere klassescheidingen.
Empirische Validatie: Uitgebreide experimenten op vier Koreaanse datasets tonen aan dat de methode bestaande baselines (inclusief traditionele ML-modellen, deep learning, en andere grafmodellen) consistent overtreft.

Resultaten

Het model werd getest op vier Koreaanse datasets: KLUE YNAT (nieuws), Movie Reviews (sentiment), Snippets (webfragmenten) en Shopping (productreviews).

Prestaties: LIGRAM behaalde de beste resultaten op alle datasets.
- Op KLUE YNAT bereikte het een Accuracy van 0.8403 en een Macro-F1 van 0.8269 (een verbetering van +21,5% in F1 ten opzichte van de beste graf-baseline, HyperGAT).
- Op Snippets behaalde het 0.8049 Accuracy en 0.7986 F1.
Vergelijking met LLM's: Hoewel grote taalmodellen (LLMs) zoals GPT-5.2 en Qwen3-4B op sommige sentiment-datasets (2 klassen) betere scores behaalden, presteerde LIGRAM aanzienlijk beter op multi-class datasets (zoals YNAT met 7 klassen). Dit suggereert dat representatie-georiënteerde modellen, specifiek getuned op de linguïstische structuur, superieur zijn voor fijnmazige classificatietaken in een semi-supervised setting.
Ablatie-studie:
- Het gebruik van alleen morfemen gaf de meest stabiele prestaties van de individuele grafen.
- De combinatie van alle drie de grafen (morfem + POS + entiteit) was essentieel voor de hoogste prestaties.
- Het verwijderen van SemCon leidde tot een significante daling in prestaties (gemiddeld -9,8% F1), wat de noodzaak van semantische uitlijning bevestigt.

Significantie

Deze studie demonstreert dat het generiek toepassen van Engelstalige NLP-modellen op Koreaanse data suboptimaal is. Door de agglutinerende aard en de flexibele woordvolgorde van het Koreaans expliciet te modelleren via een hiërarchisch grafmodel, kan de contextuele schaarste in korte teksten effectief worden opgelost. De combinatie van linguïstisch geïnformeerde grafrepresentaties met semantisch contrastief leren biedt een robuuste oplossing voor low-resource scenario's en stelt een nieuwe standaard voor korte tekstclassificatie in agglutinerende talen.