SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Each language version is independently generated for its own context, not a direct translation.

🇸🇰 Le Grand Défi : Trouver les Mots Clés en Slovaque

Imaginez que vous êtes un bibliothécaire dans une immense bibliothèque slovaque. Votre travail consiste à lire des milliers de résumés de thèses d'étudiants et à leur coller une étiquette avec les mots-clés les plus importants pour qu'on puisse les retrouver facilement.

Le problème ? La langue slovaque est comme un caméléon ou un jeu de Lego très complexe. Un seul mot (comme "potentiel") peut se transformer en dizaines de formes différentes selon son rôle dans la phrase (comme un caméléon qui change de couleur).

L'étudiant écrit sur son étiquette : "Potentiel de développement" (la forme de base, le "nom").
Mais dans le texte du résumé, il a écrit : "du potentiel de développement" ou "au potentiel de développement".

Pour un ordinateur classique, ce sont deux mots totalement différents. C'est comme si vous cherchiez "pomme" dans un livre, mais que le livre ne contenait que "pomme rouge", "pommes de terre" ou "de la pomme". L'ordinateur dit : "Aucun match !" alors que le sens est là.

🛠️ La Solution : Une Nouvelle Carte au Trésor (Le Dataset SlovKE)

Les chercheurs (David et Marek) se sont dit : "Il faut d'abord construire une carte plus précise avant de chercher le trésor."

Le Nettoyage Géant : Ils ont fouillé dans les archives numériques de toutes les thèses slovaques (plus de 790 000 documents !). C'était un chantier de nettoyage monumental. Ils ont retiré les doublons, chassé les textes en anglais qui s'étaient glissés par erreur, et nettoyé les titres moches.
Le Résultat : Ils ont créé SlovKE, une base de données propre de 227 000 résumés. C'est comme passer d'un petit carnet de notes à une encyclopédie géante. C'est 25 fois plus gros que tout ce qui existait avant pour le slovaque !

🤖 Le Match des Robots : Qui est le meilleur ?

Pour tester si les ordinateurs pouvaient enfin bien faire leur travail, ils ont organisé un tournoi entre trois types de "chasseurs de mots".

1. Les Anciens (YAKE, TextRank, KeyBERT)

Ce sont des robots extracteurs. Ils agissent comme un photocopieur intelligent : ils regardent le texte et copient exactement les mots qu'ils voient.

Leur problème : Comme le slovaque change la forme des mots, ces robots copient la mauvaise version.
Le résultat : Ils sont très mauvais si on exige une correspondance parfaite (seulement 11,6 % de réussite). Mais si on leur dit "accepte aussi les variantes", ils montent à 51,5 %.
L'analogie : C'est comme un détective qui cherche un suspect nommé "Jean". Si le suspect porte un manteau rouge, le détective le rate parce qu'il cherche "Jean en manteau bleu".

2. Le Nouveau Super-Héros (KeyLLM)

C'est un robot basé sur une Intelligence Artificielle Générative (comme GPT-3.5). Au lieu de photocopier les mots, il lit et comprend le texte, puis écrit lui-même les mots-clés.

Son super-pouvoir : Il comprend que "du potentiel" et "potentiel" signifient la même chose. Il écrit donc la forme "propre" (le nom canonique) que l'étudiant a mise sur son étiquette, même si le texte dit autre chose.
Le résultat : Il réduit l'écart entre la correspondance parfaite et la correspondance approximative. Il réussit mieux à trouver les concepts réels, même si la forme des mots change.

🔍 L'Expérience Humaine : Le Jury de Vrais Humains

Pour être sûrs que les robots ne trichaient pas, les chercheurs ont demandé à deux humains de lire 100 documents et de juger les résultats.

Ce qu'ils ont découvert : Les robots "extracteurs" (les anciens) ratent souvent des idées importantes juste à cause de la grammaire.
La surprise : Le robot "génératif" (KeyLLM) trouve parfois des mots-clés que l'étudiant n'a même pas mis sur son étiquette, mais qui sont pourtant très importants pour le sujet (comme une méthode spécifique ou un nom d'entreprise). C'est comme si le robot comprenait le contexte mieux que l'auteur lui-même !

💡 La Leçon à Retenir

Cette étude nous apprend deux choses essentielles :

La grammaire est un piège : Pour les langues complexes comme le slovaque (et le tchèque, le polonais, le finnois, etc.), les méthodes classiques qui copient-collent les mots sont insuffisantes. Elles sous-estiment la qualité des résultats parce qu'elles sont trop rigides.
L'IA générative est l'avenir : Les nouveaux modèles qui "écrivent" des mots plutôt que de les "copier" sont beaucoup plus adaptés à ces langues riches en grammaire. Ils savent normaliser les mots pour qu'ils correspondent aux étiquettes officielles.

En résumé : Les chercheurs ont construit la plus grande bibliothèque de données slovaques jamais vue, prouvant que pour comprendre une langue qui change de forme comme un caméléon, il faut des robots capables de comprendre le sens, pas juste de copier les mots. Et ils ont rendu tout cela gratuit pour que tout le monde puisse en profiter !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'extraction de phrases-clés (keyphrase extraction) pour les langues à richesse morphologique et à ressources limitées, comme le slovaque, reste un domaine sous-étudié. Le défi principal réside dans la disparité morphologique : dans des langues comme le slovaque, un même lemme peut apparaître sous des dizaines de formes fléchies (cas, nombres, genres) dans le texte, tandis que les auteurs attribuent des phrases-clés sous leur forme canonique (généralement au nominatif).

Cette divergence crée un décalage fondamental entre les formes de surface extraites par les modèles et les formes de référence attribuées par les auteurs. Les métriques d'évaluation standard (correspondance exacte) pénalisent sévèrement les modèles extractifs qui identifient correctement le concept mais sous une forme grammaticale différente, faussant ainsi l'évaluation de la performance réelle. De plus, il existait un manque critique de jeux de données de grande qualité et à grande échelle pour le slovaque, les travaux précédents se limitant à des corpus bruyants et de petite taille (environ 9 000 documents).

2. Méthodologie

A. Construction du jeu de données SlovKE

Les auteurs ont créé SlovKE, un jeu de données massif composé de 227 432 résumés scientifiques slovaques avec des phrases-clés attribuées par les auteurs.

Source : Le Registre central des thèses et mémoires slovaques (794 527 documents initiaux).
Pipeline de nettoyage : Une procédure rigoureuse a été appliquée pour atteindre le volume final :
1. Suppression des doublons.
2. Récupération des phrases-clés collées à la fin des résumés (lorsqu'aucun champ dédié n'existait).
3. Élimination des métadonnées bruyantes (noms d'auteurs, types de thèses) préfixant les résumés.
4. Vérification linguistique (20 % des résumés étiquetés "slovaque" étaient en anglais et filtrés).
5. Normalisation des phrases-clés (séparation des listes, limite de 4 mots).
6. Filtrage par longueur (500-2000 caractères pour le résumé, 4-15 phrases-clés).
Statistiques : Le jeu de données est comparable en taille aux benchmarks anglais établis comme KP20K, avec un taux de phrases-clés absentes de 37 %.

B. Modèles Évalués

L'étude compare trois approches extractives (baselines) et une approche générative :

YAKE : Méthode statistique non supervisée basée sur des caractéristiques locales (casse, position, fréquence).
TextRank : Approche basée sur les graphes (algorithme PageRank).
KeyBERT : Méthode basée sur les plongements (embeddings) utilisant le modèle SlovakBERT (kinit/slovakbert-sts-stsb).
KeyLLM : Approche générative utilisant un Grand Modèle de Langage (LLM), spécifiquement GPT-3.5-turbo, pour générer des phrases-clés directement à partir du texte via des prompts.

C. Métriques d'Évaluation

Pour pallier les limites des métriques standard dans les langues flexionnelles, les auteurs utilisent deux mesures :

Correspondance Exacte (Exact Match) : La phrase extraite doit correspondre mot pour mot à la référence.
Correspondance Partielle (Partial Match) : Une correspondance est comptée si un fragment de la phrase extraite chevauche un fragment de la référence.
Évaluation Manuelle : Sur un sous-ensemble de 100 documents, des annotateurs humains ont évalué la pertinence sémantique, la granularité et la redondance, avec un accord inter-annotateurs ( $\kappa$ ) de 0,61.

3. Résultats Clés

Performance des Modèles Extractifs

Les modèles extractifs (YAKE, TextRank, KeyBERT) montrent une performance limitée en correspondance exacte, avec un F1@6 maximum de 11,6 % (YAKE).
En revanche, leur performance en correspondance partielle est beaucoup plus élevée (51,5 % pour TextRank).
Le fossé Exact-Partiel : L'écart entre les deux métriques (environ 40 points) est attribué directement à la morphologie fléchie. Les modèles identifient les concepts corrects mais échouent sur la forme grammaticale exacte.

Performance de KeyLLM (GPT-3.5)

Réduction de l'écart : KeyLLM atteint un F1@6 exact de ~15,2 %, soit une amélioration significative par rapport aux baselines.
Normalisation de forme : Le modèle génératif réussit à produire des phrases-clés sous leur forme canonique (lemme) plutôt que de copier les formes fléchies présentes dans le texte, réduisant ainsi l'écart exact-partiel de 30 % par rapport aux méthodes extractives.
Limites : Bien que KeyLLM soit plus robuste morphologiquement, il ne détecte pas nécessairement plus de concepts pertinents que les baselines (la correspondance partielle reste similaire), mais il améliore la qualité de la forme.

Analyse des Erreurs

Défaillance principale des extractifs : Le décalage morphologique (ex: rozvojového potenciálu vs Rozvojový potenciál).
Défaillance principale de KeyLLM : L'extraction d'adjectifs non motivés (adjectifs seuls sans nom) qui manquent de spécificité thématique.
Évaluation Manuelle : Confirme que les métriques automatiques sous-estiment la qualité réelle. KeyLLM capture des concepts sémantiquement pertinents (entités nommées, termes méthodologiques) souvent absents des listes d'auteurs mais présents dans le texte.

4. Contributions Principales

SlovKE : Le plus grand jeu de données slovaque pour l'extraction de phrases-clés (227k documents), offrant une infrastructure de base pour le NLP slovaque et les langues slaves.
Analyse du biais morphologique : Démonstration empirique que l'écart entre les métriques exactes et partielles est un indicateur diagnostique de la difficulté morphologique, applicable à d'autres langues flexionnelles (tchèque, polonais, finnois, turc).
Validation des LLMs : Preuve que les modèles génératifs (KeyLLM) surpassent les méthodes extractives traditionnelles dans les langues à riche morphologie grâce à leur capacité à générer des formes canoniques, contournant ainsi le besoin d'un analyseur morphologique explicite.
Ressources Open Source : Publication du jeu de données sur Hugging Face et du code d'évaluation sur GitHub.

5. Signification et Perspectives

Cette étude souligne que les métriques d'évaluation standard, conçues pour l'anglais, sont inadéquates pour les langues à morphologie riche. Elle propose une nouvelle approche d'évaluation combinant correspondance exacte, partielle et analyse humaine.

L'impact de SlovKE dépasse la simple tâche d'extraction de phrases-clés : il ouvre la voie à l'entraînement de modèles supervisés (fine-tuning) pour le slovaque, à la classification de documents et au transfert inter-langues vers d'autres langues slaves. Les auteurs recommandent le développement de protocoles d'évaluation "conscients de la morphologie" pour éviter de sous-estimer systématiquement les performances des modèles dans ces langues.