OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Der Artikel stellt OSUM-Pangu vor, ein vollständig quelloffenes Sprachverständnis-Grundmodell, das auf der OpenPangu-7B-Architektur basiert und speziell für den Einsatz auf Ascend-NPUs ohne CUDA-Infrastruktur entwickelt wurde, wobei es eine mit GPU-basierten Modellen vergleichbare Genauigkeit erreicht.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie

Veröffentlicht Thu, 12 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber sehr launischen Assistenten. Dieser Assistent ist ein Sprach-KI-Modell. Er kann nicht nur hören, was Sie sagen, sondern auch wie Sie es sagen (z. B. ob Sie wütend oder glücklich klingen) und sogar erraten, wie alt Sie sind.

Das Problem bisher war: Dieser Assistent war wie ein hochmoderner Rennwagen, der nur mit einem ganz bestimmten Treibstoff (NVIDIA-GPUs und CUDA-Software) funktionierte. Wenn Sie ihn in ein Land brachten, wo dieser Treibstoff verboten oder nicht verfügbar war (z. B. in China mit eigenen Chips), blieb der Wagen stehen.

Hier kommt OSUM-Pangu ins Spiel.

1. Der neue Motor: Ein Auto für jeden Tank

Die Forscher haben einen neuen Assistenten gebaut, der nicht auf den verbotenen Treibstoff angewiesen ist. Stattdessen läuft er auf Ascend-NPUs (einer Art chinesischer KI-Chip) und einer komplett offenen Software.

  • Die Analogie: Stellen Sie sich vor, bisher mussten alle KI-Assistenten in einem Haus wohnen, das nur mit US-Stromsteckern funktionierte. OSUM-Pangu ist wie ein Assistent, der einen universellen Adapter hat. Er funktioniert in jedem Haus, egal ob die Steckdose in den USA, Europa oder China ist.

2. Wie funktioniert das Gehirn? (Die drei Bausteine)

Das Modell besteht aus drei Teilen, die wie ein gut koordiniertes Team arbeiten:

  1. Das Ohr (Whisper-Encoder): Das ist ein sehr gutes Gehör, das die Schallwellen in eine Art "Gedächtnis-Skizze" umwandelt. Es hört nicht nur die Worte, sondern auch den Klang.
  2. Der Dolmetscher (Adapter): Das Ohr spricht eine andere Sprache als das Gehirn. Der Dolmetscher nimmt die langen, komplizierten Klang-Skizzen und macht sie kurz und knackig, damit das Gehirn sie schnell verstehen kann.
  3. Das Gehirn (OpenPangu-7B): Das ist das eigentliche "Denkzentrum". Es ist ein riesiges Sprachmodell, das bereits gelernt hat, wie die Welt funktioniert. Es ist wie ein erfahrener Professor, der alles über Sprache weiß.

Der Clou: Bisher mussten diese Teile oft aufwendig zusammengebaut werden, damit sie auf den neuen Chips liefen. OSUM-Pangu nutzt einen "Professor" (OpenPangu), der von Anfang an für diese neuen Chips trainiert wurde. Das ist, als würde man einen Rennwagen direkt mit dem passenden Motor bauen, anstatt einen alten Motor mühsam anzupassen.

3. Das Training: Vom "Befehlsroboter" zum "Gesprächspartner"

Früher mussten Sie dem KI-Assistenten sehr starre Befehle geben, wie: "FUNKTION: ALTER_ERMITTELN". Wenn Sie sagten: "Wie alt klingt dieser Mann wohl?", hat der alte Roboter oft den Kopf geschüttelt.

OSUM-Pangu wurde in drei Stufen trainiert, um natürlich zu sprechen:

  • Stufe 1: Es lernt, die Sprache zu verstehen (z. B. "Das ist ein Erwachsener").
  • Stufe 2: Es lernt, Ihre Absicht aus normalen Sätzen zu erraten (z. B. "Kannst du mir sagen, wie alt er ist?").
  • Stufe 3: Es verbindet beides. Es hört zu, denkt nach und antwortet direkt, ohne dass Sie einen speziellen Code eingeben müssen.

Das Ergebnis: Der Assistent versteht zu 90,2 %, was Sie wollen, auch wenn Sie es ganz locker formulieren. Das ist wie ein Gespräch mit einem Freund, bei dem er genau weiß, was Sie meinen, auch wenn Sie nicht jeden Satz perfekt formulieren.

4. Warum ist das wichtig? (Die große Bedeutung)

Bisher war die Welt der KI-Sprachmodelle wie ein exklusiver Club, in den man nur mit einem bestimmten Ausweis (NVIDIA-Chips) rein durfte. Das war teuer und schloss viele Länder und Forscher aus.

OSUM-Pangu ist wie ein offenes Tor. Es zeigt der Welt:

  • Man braucht keine teuren US-Chips, um hochintelligente Sprach-KI zu bauen.
  • Man kann KI auf eigenen, unabhängigen Hardware-Systemen (wie den Ascend-Chips) bauen, die genauso gut funktionieren wie die großen Modelle.
  • Es ist Open Source (offen für alle), damit jeder die Baupläne einsehen und weiterentwickeln kann.

Zusammenfassung in einem Satz

OSUM-Pangu ist ein intelligenter Sprach-Assistent, der nicht mehr auf teure, amerikanische Hardware angewiesen ist, sondern auf eigenen Chips läuft, Ihre lockeren Sätze versteht und damit zeigt, dass man KI auch unabhängig und offen entwickeln kann.