Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Each language version is independently generated for its own context, not a direct translation.

🇰🇷 Le Défi : Comprendre les messages courts en Coréen

Imaginez que vous essayez de deviner le sujet d'une conversation en écoutant seulement des bribes de phrases, comme si quelqu'un vous chuchotait des mots clés sans faire de phrases complètes. C'est le défi de la classification de textes courts (comme des tweets, des titres de news ou des commentaires).

Le problème est encore plus difficile avec la langue coréenne. Contrairement au français ou à l'anglais, le coréen est une langue "agglutinante". C'est comme un jeu de Lego : on colle des petits morceaux (suffixes, particules) à un mot de base pour changer son sens.

Exemple : Si on retire les petits morceaux (les particules) d'une phrase courte, le sens devient flou. "Aller à l'hôpital" pourrait signifier "aller voir un ami", "être soigné" ou "travailler là-bas". Sans les petits détails grammaticaux, c'est du flou artistique.

🛠️ La Solution : LIGRAM, le détective linguistique

Les auteurs ont créé un modèle intelligent nommé LIGRAM. Pour le comprendre, imaginons que nous voulons comprendre un texte court coréen. Au lieu de le lire comme un simple bloc de texte, LIGRAM le décompose en trois couches d'informations, comme un détective qui examine une scène de crime sous trois angles différents :

Le Réseau des Morpions (Morphèmes) :
- L'analogie : Imaginez que vous démontez un jouet pour voir toutes les pièces détachées.
- Ce que ça fait : Le modèle casse les mots en leurs plus petits composants (les racines et les petites particules collées). Cela permet de comprendre le sens réel même si la phrase est courte ou mal formée.
Le Réseau de la Grammaire (Parties du discours) :
- L'analogie : C'est comme regarder l'étiquette de chaque pièce du jouet (est-ce un moteur ? une roue ? une vis ?).
- Ce que ça fait : Le modèle identifie le rôle grammatical de chaque mot (est-ce un nom ? un verbe ?). Même si la particule est manquante dans le texte, le modèle "devine" son rôle grâce à la structure, comblant ainsi les trous laissés par l'omission des mots.
Le Réseau des Entités (Noms propres) :
- L'analogie : C'est comme repérer les visages connus dans une foule.
- Ce que ça fait : Le modèle repère les noms de lieux, de personnes ou d'organisations. Ces noms sont souvent des indices puissants pour deviner de quoi on parle (ex: "Samsung" et "iPhone" suggèrent la technologie).

🧩 L'Assemblage : Construire une carte mentale

Au lieu de traiter ces trois informations séparément, LIGRAM les superpose comme des calques de papier calque.

Il crée un "graphe" (un réseau de points reliés) pour chaque couche.
Ensuite, il les fusionne intelligemment. Cela lui permet de reconstituer le contexte manquant. Si le texte est trop court pour dire clairement ce qui se passe, le modèle utilise la grammaire et les noms propres pour "remplir les blancs" et comprendre l'intention réelle.

🎯 L'Entraînement : La méthode des "Jumeaux Sémantiques" (SemCon)

Même avec une bonne compréhension, classer des textes courts est difficile car les catégories se chevauchent souvent. Pour aider le modèle à mieux trancher, les chercheurs ont ajouté une technique spéciale appelée SemCon (Apprentissage par contraste sémantique).

L'analogie : Imaginez un professeur qui classe des élèves non pas par leur apparence (vêtements, cheveux), mais par leurs intérêts cachés.
Comment ça marche : Le modèle regarde deux textes. Même s'ils utilisent des mots différents, s'ils parlent du même sujet (par exemple, tous les deux parlent de "football"), le modèle les colle ensemble dans son esprit. S'ils parlent de sujets différents, il les éloigne.
Cela permet au modèle de créer des frontières très nettes entre les catégories, même si les textes sont courts et ambigus.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur invention sur quatre types de textes coréens (titres de journaux, critiques de films, extraits de recherche web, avis de shopping).

Le verdict : LIGRAM a battu tous les autres modèles, y compris des modèles très puissants basés sur l'intelligence artificielle générale (comme les grands modèles de type ChatGPT), surtout pour les tâches complexes avec beaucoup de catégories différentes.
Pourquoi ? Parce que les grands modèles génériques sont comme des généralistes : ils savent beaucoup de choses mais ne connaissent pas les astuces spécifiques de la langue coréenne. LIGRAM, lui, est un spécialiste qui a été entraîné spécifiquement pour comprendre la structure unique du coréen.

En résumé

Cette recherche nous dit que pour bien comprendre une langue complexe et courte, il ne suffit pas de regarder les mots. Il faut :

Déconstruire les mots en leurs pièces (morphèmes).
Comprendre la grammaire cachée (POS).
Repérer les indices clés (entités).
Regrouper les idées similaires pour mieux les distinguer.

C'est comme passer d'une lecture superficielle à une lecture de détective, ce qui permet de comprendre parfaitement même les messages les plus courts et les plus ambigus.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La classification de textes courts (STC) est une tâche complexe en traitement du langage naturel (NLP), caractérisée par une pénurie d'informations contextuelles et de données étiquetées. Bien que de nombreuses approches existent pour l'anglais, elles sont souvent inadaptées au coréen pour plusieurs raisons linguistiques spécifiques :

Nature agglutinante : Le sens est construit au niveau des morphèmes (radicaux + affixes) plutôt que des mots entiers.
Omission fréquente : Dans les textes courts (titres, tweets, requêtes de recherche), les particules grammaticales et les terminaisons sont souvent omises, créant une ambiguïté sémantique élevée.
Ordre des mots flexible : La structure syntaxique varie davantage que dans les langues à ordre fixe comme l'anglais.
Limites des modèles existants : Les modèles actuels, souvent conçus pour l'anglais, ne capturent pas ces dépendances structurelles fines, ce qui entraîne une perte de sens et une mauvaise performance sur les corpus coréens.

2. Méthodologie : LIGRAM

Les auteurs proposent LIGRAM (Linguistically Informed Graph Model), une architecture de réseau de neurones à graphes hétérogènes hiérarchique, couplée à un apprentissage contrastif sémantique.

A. Construction de Graphes Hétérogènes Hiérarchiques

Le modèle décompose le texte coréen en trois sous-graphes distincts pour capturer différentes couches d'information linguistique, puis les intègre hiérarchiquement :

Graphe de Morphèmes ( $G_w$ ) :
- Objectif : Surmonter les limites de la tokenisation par espaces blancs.
- Mise en œuvre : Utilisation de l'analyseur morphologique Kiwi pour décomposer les phrases en morphèmes. Les nœuds sont initialisés avec des embeddings pré-entraînés (KLUE/RoBERTa). Les arêtes sont pondérées par le PMI (Pointwise Mutual Information) pour capturer la proximité sémantique entre morphèmes.
Graphe de Catégories Grammaticales / POS ( $G_p$ ) :
- Objectif : Compenser l'omission des particules et des terminaisons.
- Mise en œuvre : Les étiquettes POS (Part-of-Speech) sont traitées comme des nœuds explicites. Les relations sont basées sur la co-occurrence de ces étiquettes au sein d'un document, permettant au modèle d'inférer la structure syntaxique manquante.
Graphe d'Entités Nommées ( $G_e$ ) :
- Objectif : Fournir des ancres sémantiques pour la désambiguïsation.
- Mise en œuvre : Extraction d'entités (noms propres, lieux, organisations) via un modèle KPF-BERT-NER. Les similarités cosinus entre les vecteurs d'entités définissent les connexions, renforçant la propagation sémantique au niveau des entités.

Chaque sous-graphe est traité par un GCN (Graph Convolutional Network) à deux couches. Les représentations de documents sont ensuite obtenues par un pooling hiérarchique (attention pondérée par TF-IDF pour les morphèmes/POS, et binaire pour les entités) et concaténées pour former une représentation globale du document.

B. Apprentissage Contrastif Sémantique (SemCon)

Pour améliorer la séparabilité des classes, le modèle utilise une stratégie d'apprentissage contrastif adaptée aux textes courts :

Distribution de Pseudo-sujets : Au lieu de traiter chaque instance comme une classe unique, la représentation du document est transformée en une distribution de probabilité sur les classes (pseudo-sujet) via une couche Softmax.
Construction des Paires : Les documents partageant le même pseudo-sujet dominant sont considérés comme des paires positives, tandis que ceux ayant des sujets différents sont des paires négatives.
Objectif : Cela permet d'apprendre des frontières de décision plus claires en alignant les documents sémantiquement similaires, même si leurs surfaces lexicales diffèrent, sans dépendre uniquement des étiquettes de vérité terrain pour la formation des paires.

C. Fonction de Perte Unifiée

L'entraînement combine la perte d'entropie croisée (classification supervisée) et la perte contrastive ( $L_{con}$ ), pondérée par un hyperparamètre $\lambda$ :
$L = L_{ce} + \lambda L_{con}$

3. Contributions Clés

Modélisation Linguistique Spécifique : Première approche intégrant explicitement les morphèmes, les POS et les entités dans un graphe hétérogène hiérarchique pour le coréen, adressant directement les défis de l'agglutination et de l'omission grammaticale.
SemCon (Semantic Contrastive Learning) : Une méthode d'apprentissage contrastif basée sur la similarité des distributions de sujets, conçue pour résoudre l'ambiguïté des frontières de classes dans les textes courts.
Performance Supérieure : Démonstration expérimentale que l'intégration de graphes linguistiques et de SemCon surpasse les modèles de base (y compris les LLMs) sur des tâches de classification coréenne à ressources limitées.

4. Résultats Expérimentaux

Le modèle a été évalué sur quatre jeux de données coréens (KLUE YNAT, Avis de films, Snippets, Shopping) dans un scénario semi-supervisé (peu d'étiquettes d'entraînement).

Performance Globale : LIGRAM a obtenu les meilleurs résultats sur tous les jeux de données, surpassant les modèles de base graphiques (comme SHINE, GIFT, TextGCN) et les classificateurs traditionnels.
- Exemple : Sur le jeu de données KLUE YNAT, LIGRAM a atteint une précision (ACC) de 0.8403 et un F1-macro de 0.8269, soit une amélioration de +21,5% en F1 par rapport au meilleur modèle de base (HyperGAT).
- Sur Snippets, il a dépassé GIFT de +8,4% en précision.
Comparaison avec les LLM : Bien que certains grands modèles de langage (LLMs) comme GPT-5.2 aient performé sur des tâches binaires simples (sentiment), LIGRAM a surpassé les LLMs (y compris Qwen) sur les tâches à classes multiples (comme YNAT et Snippets), où la distinction fine des catégories est cruciale. De plus, LIGRAM utilise beaucoup moins de paramètres (~0,56M) que les LLMs.
Étude Ablative :
- L'utilisation combinée des trois graphes (morphèmes + POS + entités) est essentielle.
- Le module SemCon apporte une amélioration moyenne de 9,8% du score F1, confirmant son rôle dans l'alignement sémantique.

5. Signification et Conclusion

LIGRAM démontre que pour les langues agglutinantes comme le coréen, l'approche "boîte noire" des modèles génériques est insuffisante. En reconstruisant explicitement les structures linguistiques manquantes (via les graphes de morphèmes et POS) et en affinant l'espace de représentation (via SemCon), il est possible d'atteindre une précision supérieure même avec très peu de données étiquetées.

Ce travail ouvre la voie à l'adaptation de cadres similaires à d'autres langues agglutinantes (comme le turc ou le japonais) et souligne l'importance de l'ingénierie linguistique dans la conception de modèles NLP pour des contextes à ressources limitées.