Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Das Paper stellt Ramsa vor, ein sich entwickelndes 41-stündiges Sprachkorpus des Emirati-Arabisch mit 157 Sprechern und vielfältigen soziolinguistischen Merkmalen, das als Ressource für die Erforschung von Dialekten und die Entwicklung von ASR- und TTS-Systemen dient, wobei erste Benchmark-Ergebnisse für bestehende Modelle ermittelt wurden.

Rania Al-Sabbagh

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die arabische Sprache ist ein riesiger, alter Baum. Die meisten Forscher haben bisher nur die dicken Äste untersucht – die formelle Hochsprache (Fusha) oder die großen, bekannten Dialekte wie Ägyptisch oder Marokkanisch. Aber die feinen, kleinen Zweige, die die echten, lebendigen Gespräche der Menschen widerspiegeln, wurden oft übersehen.

Genau hier kommt das Projekt „Ramsa" ins Spiel.

Was ist Ramsa?

Stellen Sie sich Ramsa als einen riesigen, digitalen Schatzkasten vor, der speziell für den Emirati-Dialekt gebaut wurde. Bisher gab es nur kleine, unvollständige Sammlungen von Aufnahmen – wie ein Puzzle mit fehlenden Teilen. Ramsa füllt diese Lücken mit 41 Stunden an echter Sprache.

Das Besondere an diesem Schatzkasten ist, dass er nicht nur „eine" Art von Sprache speichert. Er ist wie ein multifarbener Mosaikboden:

  • Die Menschen: Es sind nicht nur Männer oder nur Frauen dabei. Das Team hat bewusst darauf geachtet, viele Frauen (59) und Männer (98) einzubeziehen, um ein realistisches Bild der Gesellschaft zu zeichnen.
  • Die Regionen: Der Dialekt in den Emiraten ist nicht überall gleich. Es gibt Unterschiede zwischen Stadtleuten, Beduinen und den Bewohnern der Bergregionen. Ramsa fängt all diese Nuancen ein, als würde man verschiedene Farben in ein Gemälde mischen, statt nur eine Farbe zu verwenden.
  • Die Inhalte: Die Aufnahmen kommen aus zwei Quellen:
    1. Gespräche im Studio: Wie ein gemütliches Kaffeehaus, wo Menschen über ihr Leben, Essen und Traditionen plaudern.
    2. Fernsehsendungen: Wie eine Reise durch das Land, von Kochshows bis zu Dokumentationen über Geschichte und Architektur.

Warum ist das so wichtig?

Bisher war es für Computer (Künstliche Intelligenz) wie ein Blinder, der versucht, ein Bild zu malen. Die KI-Modelle, die Sprache verstehen (ASR) oder sprechen (TTS), wurden hauptsächlich mit anderen Dialekten trainiert. Wenn sie dann auf den Emirati-Dialekt treffen, stolpern sie oft, weil sie die kleinen Besonderheiten nicht kennen.

Ramsa gibt diesen Computern nun eine Brille, mit der sie die Sprache klar sehen können.

Der erste Test: Wie gut sind die Computer schon?

Die Forscher haben einen kleinen Teil des Schatzkastens (10 %) genommen, um zu testen, wie gut die aktuellen KI-Modelle damit zurechtkommen. Man kann sich das wie einen Flugtest für ein neues Flugzeug vorstellen, bevor es in den regulären Flugverkehr geht.

  • Das Ergebnis: Die besten Modelle (wie „Whisper") haben bereits eine gute Landung geschafft, aber sie sind noch nicht perfekt. Sie verstehen etwa 73–76 % der Wörter korrekt.
  • Das Problem: Besonders schwierig ist es, wenn viele Leute gleichzeitig reden, unterbrechen oder wenn Hintergrundmusik spielt. Das ist wie ein Versuch, ein Gespräch in einer lauten Disco zu verstehen – selbst für Menschen schwer, für Computer noch schwerer.
  • Die Zukunft: Diese ersten Ergebnisse sind wie ein Startpunkt. Sie zeigen den Ingenieuren genau, wo sie noch schrauben müssen, damit die KI in Zukunft so gut versteht, wie ein Einheimischer.

Was passiert jetzt?

Das Projekt ist noch im Aufbau. Die Forscher arbeiten weiter daran, den gesamten Schatzkasten zu katalogisieren. Es gibt jedoch noch Hürden:

  • Datenschutz: Da es sich um echte Menschen handelt, sind die Aufnahmen wie in einem Safes verschlossen. Nur berechtigte Forscher dürfen hineinschauen, um die Privatsphäre der Sprecher zu schützen.
  • Urheberrecht: Die Fernsehsendungen gehören den Sendern, daher kann man die Videos nicht einfach so weitergeben, aber die Daten für die Forschung sind verfügbar.

Fazit

Ramsa ist mehr als nur eine Datenbank. Es ist ein Spiegel für die emiratische Identität. Es zeigt, dass die Sprache lebendig, vielfältig und voller Geschichten ist. Durch dieses Projekt erhalten Computer endlich die Möglichkeit, diese Geschichten nicht nur zu hören, sondern sie wirklich zu verstehen. Es ist der erste große Schritt, um die digitale Welt für die Menschen in den Emiraten so natürlich und zugänglich zu machen wie für alle anderen.