SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

Die Arbeit stellt SloPal vor, ein umfassendes Korpus mit 66 Millionen Wörtern aus slowakischen Parlamentsdebatten sowie ein daraus abgeleitetes, 2.806 Stunden langes abgestimmtes Audiodatenset, das zur Entwicklung von feinabgestimmten Whisper-ASR-Modellen verwendet wurde, die mit deutlich weniger Parametern die Leistung des großen Basismodells erreichen.

Erik Božík, Marek Šuppa

Veröffentlicht 2026-03-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🇸🇰 SloPal: Der große „Wörter-Schatz" für die slowakische Sprache

Stellen Sie sich vor, Sie wollen einem sehr klugen, aber etwas faulen Roboter beibringen, wie man Slowakisch spricht und versteht. Dieser Roboter ist wie ein riesiges, schlafendes Gehirn (ein KI-Modell namens „Whisper"), das bereits Sprachen wie Englisch oder Deutsch perfekt beherrscht. Aber wenn Sie ihm Slowakisch geben, stottert er. Warum? Weil ihm einfach zu viele Bücher und Hörbücher fehlen, um die Sprache zu lernen. Bisher gab es für Slowakisch weniger als 100 Stunden öffentliches Trainingsmaterial – das ist wie ein Kind, das versucht, ein ganzes Jahr Schulwissen in einer einzigen Woche zu lernen.

Die Forscher haben sich gedacht: „Das müssen wir ändern!" Und so haben sie SloPal erschaffen.

1. Die Bibliothek der Parlamentsreden (Der Text-Schatz)

Stellen Sie sich das slowakische Parlament als eine riesige, gut organisierte Bibliothek vor. Seit dem Jahr 2001 wurde dort fast jede Rede, jeder Streit und jeder Vorschlag wortwörtlich aufgeschrieben.

  • Das Problem: Diese Aufzeichnungen waren wie ein riesiger Haufen loser Blätter, die niemand sortiert hatte.
  • Die Lösung: Die Forscher haben diesen Haufen gesäubert. Sie haben 330.000 einzelne Reden herausgefiltert, die Namen der Redner (z. B. „Herr Minister Novak") und den genauen Zeitpunkt notiert.
  • Das Ergebnis: Ein riesiger Text-Schatz von 66 Millionen Wörtern. Das ist wie eine Bibliothek, die so groß ist, dass man sie nie zu Ende lesen könnte. Dieser Teil heißt SloPal.

2. Die Synchronisation (Das Puzzle aus Bild und Ton)

Jetzt kommt der schwierige Teil. Die Forscher wollten nicht nur die Texte, sondern auch die Audioaufnahmen der Reden. Aber hier gab es ein Problem:

  • Die Situation: Die Parlamentsaufnahmen sind wie lange, ununterbrochene Filme (manchmal 3 Stunden lang). Die Texte sind wie ein Skript, das in kleine Sätze unterteilt ist.
  • Der Konflikt: Wenn man versucht, das Skript direkt auf den Film zu legen, passt es nicht. Die Sprecher machen Pausen, reden schneller oder langsamer, und die Aufzeichnungen sind oft ungenau.
  • Die Magie-Trick: Die Forscher haben eine neue Methode entwickelt, die sie „Anker-Methode" nennen.
    • Die Analogie: Stellen Sie sich vor, Sie haben zwei lange Züge, die nebeneinander fahren. Einer ist der Audio-Zug (das Geräusch), der andere der Text-Zug (das Skript). Sie passen nicht perfekt zusammen. Die Forscher suchen nach bestimmten Wörtern, die in beiden Zügen vorkommen (die „Anker"). Sobald sie ein solches Wort finden, haken sie die beiden Züge an dieser Stelle zusammen und ziehen sie dann synchron weiter.
    • Das Ergebnis: Sie haben 2.806 Stunden an perfekt synchronisierten Audio-Text-Paaren erstellt. Das ist wie ein riesiges Puzzle, bei dem jedes Stück genau an der richtigen Stelle sitzt. Dieser Teil heißt SloPalSpeech.

3. Der Roboter-Trainingslager (Das Fein-Tuning)

Jetzt haben sie genug Material, um den schlafenden Roboter (Whisper) zu wecken und zu trainieren.

  • Das Training: Sie haben den Roboter mit diesen 2.806 Stunden slowakischer Parlamentsreden „gefüttert".
  • Der Effekt: Es ist, als würde man einem Anfänger, der gerade erst Slowakisch lernt, plötzlich einen ganzen Sommer lang von den besten Rednern des Landes zuhören lassen.
  • Das Ergebnis: Der Roboter wurde unglaublich gut.
    • Die Fehlerquote (wie oft er ein Wort falsch versteht) ist um bis zu 70 % gesunken.
    • Der Clou: Ein kleiner, schlanker Roboter (mit nur 244 Millionen „Gehirnzellen") konnte nun fast so gut arbeiten wie ein riesiger, schwerfälliger Riese (mit 1,5 Milliarden „Gehirnzellen"), der normalerweise für diese Aufgabe nötig wäre. Das ist wie ein kleiner Sportwagen, der so schnell ist wie ein riesiger Lastwagen, aber viel weniger Benzin verbraucht.

Warum ist das wichtig?

Früher war Slowakisch für Computer wie eine „Geistersprache" – man konnte sie kaum verstehen. Mit SloPal haben die Forscher:

  1. Demokratisiert: Jeder kann jetzt diese Daten nutzen, um bessere Sprachassistenten, Untertitel oder Übersetzer für Slowakisch zu bauen.
  2. Effizienz gezeigt: Man braucht keine riesigen, teuren Supercomputer mehr, um Slowakisch zu verstehen; kleine, effiziente Modelle reichen jetzt aus.
  3. Zukunft gesichert: Sie haben den Weg für andere Sprachen geebnet. Wenn es in anderen Ländern Parlamentsreden gibt, kann man diese Methode einfach kopieren.

Zusammenfassend: Die Forscher haben aus alten Parlamentsaufnahmen einen riesigen, organisierten Schatz gemacht, damit Computer die slowakische Sprache endlich so gut verstehen wie ein gebildeter Mensch. Und das Beste: Sie haben das alles kostenlos für die Welt verfügbar gemacht.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →