SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen Berg an wissenschaftlichen Arbeiten – Tausende von Diplomarbeiten und Dissertationen aus der Slowakei. Jeder dieser Texte hat eine kurze Zusammenfassung (ein Abstract) und eine Liste von „Schlüsselwörtern", die der Autor selbst gewählt hat, um zu sagen: „Das ist, worum es hier wirklich geht."

Das Problem ist: Die slowakische Sprache ist wie ein riesiges, komplexes Schachspiel mit vielen verschiedenen Figuren und Regeln. Ein Wort kann sich je nach Satzstellung, Fall oder Anzahl völlig verändern (z. B. aus „Entwicklung" wird im Satz plötzlich „der Entwicklung" oder „entwickelnd").

Die Forscher in diesem Papier haben sich gefragt: Wie gut können Computer diese Schlüsselwörter finden, wenn die Sprache so veränderlich ist?

Hier ist die Geschichte ihrer Entdeckungen, einfach erklärt:

1. Das fehlende Puzzle (Der Datensatz)

Bisher gab es für die slowakische Sprache kaum genug Material, um Computerprogramme zu trainieren. Es war wie der Versuch, ein Puzzle zu lösen, bei dem dir 90 % der Teile fehlen.
Die Forscher haben sich also an die Arbeit gemacht und einen riesigen Schatz gefunden: 227.000 wissenschaftliche Zusammenfassungen aus dem slowakischen Hochschulregister. Sie haben diesen Berg an Daten gereinigt, wie man einen verwilderten Garten jäten würde: Sie haben doppelte Einträge entfernt, kaputte Texte repariert und sichergestellt, dass nur slowakische Texte übrig bleiben.
Das Ergebnis ist ein neuer, riesiger Datensatz namens SlovKE. Er ist 25-mal größer als alles, was es vorher gab – fast so groß wie die berühmten Datensätze für das Englische.

2. Der Test: Alte Werkzeuge vs. Der neue Roboter

Mit diesem neuen Datensatz haben sie verschiedene Computerprogramme getestet, um zu sehen, wer die Schlüsselwörter am besten findet.

Die alten Werkzeuge (Statistische Methoden):
Stell dir diese Programme wie einen sehr strengen Bibliothekar vor, der nur nach exakten Buchstabenkombinationen sucht.
- Das Problem: Wenn der Autor das Schlüsselwort „Rozvojový potenciál" (Entwicklungspotenzial) schreibt, aber im Text nur die Form „rozvojového potenciálu" (des Entwicklungspotenzials) vorkommt, denkt der Bibliothekar: „Das ist nicht dasselbe Wort!" und streicht es durch.
- Das Ergebnis: Diese Programme waren sehr schlecht im „exakten Match". Sie erkannten oft nur 11 % der richtigen Wörter, weil sie zu stur auf die genaue Schreibweise achteten. Wenn man aber etwas nachsichtiger war (teilweise Übereinstimmung), sprang die Zahl auf über 50 %. Das zeigt: Die Programme verstanden das Thema, aber die Sprache war ihnen zu verwirrend.
Der neue Roboter (Künstliche Intelligenz / LLM):
Dann haben sie einen modernen KI-Modell-Typ (KeyLLM, basierend auf GPT-3.5) getestet. Stell dir diesen Roboter wie einen klugen Studenten vor, der nicht nur Buchstaben zählt, sondern den Sinn versteht.
- Der Trick: Der Roboter kann Wörter in ihre Grundform umwandeln. Er sieht „rozvojového potenciálu" und denkt sofort: „Ah, das ist das gleiche wie das gesuchte Schlüsselwort 'Rozvojový potenciál'!"
- Das Ergebnis: Dieser Roboter war deutlich besser. Er schaffte es, die Lücke zwischen „exakt" und „teilweise" zu schließen. Er lieferte Wörter in der richtigen, sauberen Form, genau wie der Autor sie geschrieben hätte.

3. Die menschliche Überprüfung

Weil Computer manchmal täuschen können, haben die Forscher 100 Texte von echten Menschen prüfen lassen.

Ergebnis: Die KI (KeyLLM) hatte oft bessere Ideen als die alten Programme. Sie fand nicht nur die offensichtlichen Wörter, sondern auch wichtige Konzepte, die der Autor vielleicht vergessen hatte, aber im Text standen.
Ein Fehler der KI: Manchmal war der Roboter zu kreativ und zog Adjektive (Eigenschaftswörter) als Schlüsselwörter heran, obwohl sie allein nichts bedeuteten (z. B. nur „wichtig" statt „wichtige Entwicklung"). Aber insgesamt war er der Gewinner.

Warum ist das wichtig?

Dieses Papier ist wie ein Schlüssel für die Zukunft der slowakischen Sprache im Internet.

Es beweist, dass KI Sprachen mit vielen Formen (wie Slowakisch, Polnisch oder Finnisch) besser verstehen kann als alte Computerprogramme.
Es liefert den Rohstoff: Mit dem neuen Datensatz können jetzt andere Forscher bessere Übersetzer, Suchmaschinen und Zusammenfassungs-Tools für die slowakische Sprache bauen.
Es warnt vor falschen Messungen: Es zeigt, dass man bei solchen Sprachen nicht nur auf „exakte Buchstabengleichheit" achten darf, sonst unterschätzt man die Leistung der Computer massiv.

Zusammenfassend: Die Forscher haben einen riesigen, sauberen Datensatz geschaffen, um zu zeigen, dass moderne KI-Modelle die kniffligen Regeln der slowakischen Sprache viel besser meistern als die alten Methoden. Sie haben den Weg geebnet, damit Computer die slowakische Wissenschaft endlich richtig verstehen und durchsuchen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Extraktion von Schlüsselphrasen (Keyphrase Extraction) ist für die wissenschaftliche Literatursuche und -klassifizierung essenziell. Während für Englisch und andere ressourcenreiche Sprachen umfangreiche Datensätze und leistungsstarke Modelle existieren, bleibt die Forschung für morphologisch reiche, ressourcenarme Sprachen wie das Slowakische unterentwickelt.

Das zentrale Problem liegt in der morphologischen Komplexität des Slowakischen: Ein einzelnes Lemma (Grundform) kann in Dutzenden von flektierten Formen (Kasus, Numerus, Genus) auftreten.

Diskrepanz: Autoren vergeben Schlüsselphrasen meist in der Grundform (Nominativ, z. B. „Rozvojový potenciál"), während diese Begriffe im Abstract des Textes oft in flektierten Formen vorkommen (z. B. Genitiv „rozvojového potenciálu").
Folge: Herkömmliche extraktive Modelle, die Wortoberflächenformen direkt aus dem Text kopieren, scheitern bei der exakten Übereinstimmung (Exact Match) mit den Gold-Standard-Phrasen, obwohl sie das richtige Konzept erfasst haben. Dies führt zu einer systematischen Unterschätzung der Modellleistung durch Standard-Evaluationsmetriken.

2. Methodik und Datensatz (SlovKE)

Datensatz-Konstruktion

Die Autoren haben den SlovKE-Datensatz erstellt, der eine signifikante Erweiterung bestehender Ressourcen darstellt:

Quelle: Slowakisches Zentrales Register für Diplomarbeiten und Dissertationen (opac.crzp.sk).
Umfang: Ursprünglich ca. 794.000 Dokumente, nach einer mehrstufigen Bereinigungspipeline 227.432 wissenschaftliche Abstracts mit autorisierten Schlüsselphrasen.
Bereinigung: Umfassende Datenbereinigung umfasste:
- Entfernung von Duplikaten und Metadaten (z. B. Autorennamen, „Abstract"-Labels am Textanfang).
- Wiederherstellung von Schlüsselphrasen, die fälschlicherweise an den Abstract-Text angehängt waren.
- Spracherkennung (Entfernung von 20 % englischen Texten, die als slowakisch markiert waren).
- Normalisierung der Schlüsselphrasen (Trennung von Listen, Begrenzung auf maximal 4 Wörter).
- Filterung nach Länge (500–2000 Zeichen) und Anzahl der Phrasen (4–15).
Vergleichbarkeit: Die Größe und statistischen Eigenschaften (z. B. Anteil fehlender Schlüsselphrasen: 37 %) sind mit etablierten englischen Benchmarks wie KP20K vergleichbar.

Evaluierungsansatz

Es wurden drei unüberwachte Baseline-Modelle und ein LLM-basierter Ansatz verglichen:

Statistisch: YAKE (Unsupervised, basierend auf Häufigkeit und Position).
Graph-basiert: TextRank (PageRank-Algorithmus auf Wortgraphen).
Embedding-basiert: KeyBERT (Verwendung von SlovakBERT-Embeddings für Ähnlichkeitsberechnung).
Generativ (LLM): KeyLLM (Verwendung von GPT-3.5-turbo zur direkten Generierung von Schlüsselphrasen).

Metriken:

Exact Match (Exakte Übereinstimmung): Strenges Matching der Oberflächentoken.
Partial Match (Teilweise Übereinstimmung): Zählt Überlappungen von Wortfragmenten.
Manuelle Evaluation: Eine Stichprobe von 100 Dokumenten wurde von menschlichen Annotatoren bewertet (Cohen's Kappa $\kappa = 0.61$ ), um semantische Relevanz zu prüfen, die automatische Metriken übersehen.

3. Wichtige Ergebnisse

Leistung der Baseline-Modelle

Exakte vs. Teilweise Übereinstimmung: Es klafft eine enorme Lücke zwischen den Metriken.
- YAKE (bester Baseline): F1@6 bei exakter Übereinstimmung nur 11,6 %, bei teilweiser Übereinstimmung jedoch 40,6 %.
- TextRank: Exakt 8,6 % vs. Teilweise 51,5 %.
Schlussfolgerung: Die Lücke von ca. 30–43 Punkten zeigt, dass morphologische Flexion die automatische Evaluierung stark verzerrt. Modelle erkennen Konzepte, scheitern aber an der Form.

Leistung von KeyLLM (GPT-3.5-turbo)

KeyLLM schließt die Lücke signifikant: Es erreicht eine exakte F1@6 von ca. 15,2 % (im Vergleich zu 11,6 % bei YAKE) und eine teilweise Übereinstimmung von ca. 49,1 %.
Mechanismus: Da LLMs generativ arbeiten, können sie Schlüsselphrasen in der kanonischen Grundform (Lemma) generieren, anstatt flektierte Oberflächenformen aus dem Text zu kopieren. Dies normalisiert die Morphologie automatisch.
Manuelle Bewertung: KeyLLM erkannte semantisch relevante Konzepte (z. B. methodische Begriffe, Named Entities), die in den autorisierten Schlüsselphrasen fehlten, aber im Text diskutiert wurden. Dies unterstreicht, dass automatische Metriken die wahre Qualität in morphologisch reichen Sprachen unterschätzen.

Fehleranalyse

Hauptfehler bei extraktiven Modellen: Morphologische Nichtübereinstimmung (z. B. „aktívnej politiky" statt „aktívna politika").
Hauptfehler bei KeyLLM: Extraktion von unangemessenen Adjektiven ohne Substantiv (fehlende Granularität).

4. Hauptbeiträge

SlovKE-Datensatz: Ein öffentlich verfügbarer, sauberer Datensatz mit über 227.000 slowakischen Abstracts. Dies ist eine 25-fache Vergrößerung gegenüber vorherigen Ressourcen (Zelinka, 2023) und ermöglicht erstmals das Training überwachter Modelle für das Slowakische.
Quantifizierung des morphologischen Bias: Der Nachweis, dass die Diskrepanz zwischen „Exact Match" und „Partial Match" ein diagnostisches Maß für den Einfluss der Morphologie auf die Evaluierung ist. Dies gilt für alle flektierenden Sprachen (slawisch, finno-ugrisch, türkisch).
Validierung von LLMs: Der Nachweis, dass generative Modelle (KeyLLM) aufgrund ihrer Fähigkeit zur Lemmatisierung und Formnormalisierung robuster gegenüber morphologischer Komplexität sind als traditionelle extraktive Methoden.
Manuelle Evaluierung: Eine detaillierte Fehleranalyse, die zeigt, dass Standard-Metriken die semantische Leistung von Modellen in ressourcenarmen Umgebungen systematisch unterschätzen.

5. Bedeutung und Ausblick

Das Paper liefert eine fundamentale Infrastruktur für die NLP-Forschung im Slowakischen und für morphologisch reiche Sprachen im Allgemeinen.

Für die Forschung: Der Datensatz ermöglicht das Training von überwachtem Keyphrase-Extraktionsmodellen (z. B. Fine-Tuning von SlovakBERT), was bisher aufgrund fehlender Daten nicht möglich war.
Für die Evaluierung: Es wird gefordert, Evaluierungsprotokolle für flektierende Sprachen anzupassen, die morphologische Variation berücksichtigen, anstatt sich auf strikte String-Matches zu verlassen.
Zukünftige Arbeiten: Die Autoren schlagen vor, die Evaluation auf Journalartikel und Konferenzpapiere auszuweiten, Crowdsourcing für Ranking-Evaluierungen zu nutzen und überwachtes Fine-Tuning auf dem neuen Datensatz durchzuführen.

Verfügbarkeit:

Datensatz: Hugging Face (NaiveNeuron/SlovKE)
Code: GitHub (NaiveNeuron/SlovKE)