Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Das Paper stellt „Sommelier" vor, eine robuste und skalierbare Open-Source-Datenverarbeitungspipeline, die entwickelt wurde, um die Knappheit hochwertiger, mehrsprachiger Konversationsdaten zu überwinden und so die Weiterentwicklung von voll-duplexen Sprachmodellen für natürliche Echtzeit-Interaktionen zu ermöglichen.

Kyudan Jung, Jihwan Kim, Soyoon Kim, Jeongoon Kim, Jaegul Choo, Cheonbok Park

Veröffentlicht 2026-03-30
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie unterhalten sich mit einem Freund. Es ist ein lebendiges Gespräch: Beide sprechen gleichzeitig, einer unterbricht den anderen, beide sagen „Mhm" oder „Genau", während der andere noch redet. Das ist echte Kommunikation.

Die meisten heutigen KI-Stimmen (wie bei Sprachassistenten) funktionieren jedoch wie ein sehr höflicher, aber etwas steifer Gesprächspartner: Sie warten, bis Sie ganz fertig sind, hören zu, denken nach und antworten dann. Wenn Sie sie unterbrechen, wird es chaotisch.

Die Forscher von Sommelier (ein Name, der an einen Weinküster erinnert, der die besten Flaschen aussucht) haben nun eine Lösung entwickelt, um KIs beizubringen, genau wie Menschen zu sprechen und zuzuhören – gleichzeitig.

Hier ist die Erklärung, wie sie das gemacht haben, mit ein paar einfachen Bildern:

1. Das Problem: Der „stille" Datensatz

Um eine KI zu trainieren, die wie ein Mensch spricht, braucht man riesige Mengen an Aufnahmen echter Gespräche. Das Problem ist: Die meisten verfügbaren Aufnahmen sind entweder:

  • Einzelaufnahmen: Wie ein Podcast, bei dem nur einer spricht.
  • Zu sauber: Alles wurde bereits bearbeitet, um Überlappungen zu entfernen.
  • Zu chaotisch: Echte Gespräche haben viel Hintergrundlärm, Musik und Leute, die sich gegenseitig unterbrechen.

Wenn man eine KI nur mit „sauberen" Daten trainiert, lernt sie nicht, wie man mit einem Gespräch umgeht, in dem zwei Leute gleichzeitig reden.

2. Die Lösung: Der „Sommelier"-Filter

Die Forscher haben eine Art Super-Filter gebaut, den sie „Sommelier" nennen. Stellen Sie sich diesen Filter wie einen sehr geschickten Koch vor, der einen riesigen, chaotischen Topf mit Zutaten (Roh-Audio aus dem Internet) nimmt und daraus ein perfektes Gericht zaubert.

Der Prozess läuft in vier Schritten ab:

  • Schritt 1: Die Sortierung (VAD & Speaker Diarization)
    Der Koch schaut sich den Topf an und sagt: „Aha, hier spricht Person A, dort Person B." Er trennt die Stimmen, auch wenn sie sich kurz überlagern. Er nutzt dabei einen besonders scharfen „Lichtsensoren" (ein KI-Modell namens Sortformer), der auch winzige Geräusche wie ein kurzes „Mhm" erkennt, das andere Systeme oft übersehen.

  • Schritt 2: Das Entwirren (Overlap Separation)
    Das ist der magischste Teil. Wenn zwei Leute gleichzeitig reden, ist das Audio wie ein durcheinandergeratener Wollknäuel. Der Sommelier-Filter nimmt diesen Knäuel und entwirrt ihn. Er trennt die Stimme von Person A von der von Person B, auch wenn sie exakt zur gleichen Zeit gesprochen haben. So entsteht aus einem chaotischen Durcheinander zwei klare, getrennte Spuren.

  • Schritt 3: Die Reinigung (BGM Removal)
    Oft ist im Hintergrund Musik zu hören (z. B. in Radiosendungen). Der Filter erkennt diese Musik und schneidet sie heraus, damit nur die menschlichen Stimmen übrig bleiben.

  • Schritt 4: Die Übersetzung (Ensemble ASR)
    Jetzt muss das Audio in Text umgewandelt werden. Ein einzelner Übersetzer (eine KI) könnte Fehler machen oder Halluzinationen haben (z. B. Wörter erfinden, die nicht da waren). Der Sommelier nutzt daher drei verschiedene Übersetzer gleichzeitig. Sie stimmen ab: Wenn zwei von drei sagen „Das war ein Hund", dann ist es ein Hund. Nur so entsteht ein extrem genauer Text.

3. Das Ergebnis: Ein echter Gesprächspartner

Die Forscher haben eine KI namens Moshi mit diesen so aufbereiteten Daten trainiert. Das Ergebnis ist beeindruckend:

  • Vorher: Die KI war wie ein Roboter, der wartete, bis das Gespräch vorbei war. Wenn man sie unterbrach, antwortete sie oft nicht oder sagte Unsinn.
  • Nachher: Die KI versteht jetzt, wenn man sie unterbricht. Sie kann „Mhm" sagen, während sie noch redet, und sie hört auf zu sprechen, wenn der Nutzer einsteigt. Sie verhält sich wie ein echter Mensch in einem lebendigen Gespräch.

Zusammenfassung in einem Satz

Sommelier ist wie ein hochmoderner Übersetzer und Entwirrer, der aus chaotischen, echten Gesprächen im Internet die „Perlen" filtert, damit KIs endlich lernen können, nicht nur zu reden, sondern auch zuzuhören und gleichzeitig zu sprechen, genau wie wir Menschen.

Das Tolle daran: Die Forscher haben diesen „Rezeptbuch"-Filter kostenlos und offen veröffentlicht, damit auch andere Forscher und Entwickler ihre KIs zu besseren Gesprächspartnern machen können.