OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Dit paper introduceert OSUM-Pangu, een volledig open-source foundation model voor multidimensionale spraakbegrip dat is gebouwd op de openPangu-7B LLM en volledig draait op Ascend NPUs zonder CUDA, waardoor een reproduceerbare, GPU-onafhankelijke baseline wordt geboden met prestaties vergelijkbaar met bestaande GPU-modellen.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme robot hebt die niet alleen kan lezen en schrijven, maar ook kan luisteren. Hij kan horen wat je zegt, maar ook hoe je het zegt (is je stem boos? is de spreker een kind of een volwassene?). Dit soort robots worden "spraakmodellen" genoemd.

Meestal worden deze slimme robots gebouwd met heel specifieke, dure computerchips van het merk NVIDIA (de "CUDA" chips). Het is alsof je een raceauto bouwt die alleen op benzine rijdt. Als je geen benzine hebt, of als je in een land woont waar alleen elektriciteit beschikbaar is, kun je die auto niet gebruiken.

OSUM-Pangu is het antwoord op dit probleem. Hier is wat de onderzoekers hebben gedaan, vertaald naar alledaags taal:

1. De "Elektrische" Versie van de Robot

De onderzoekers (van de Noordwest-Polytechnische Universiteit in China) hebben een nieuwe versie van deze slimme spraakrobot gebouwd die niet op de gebruikelijke NVIDIA-chips draait, maar op een ander type chip: de Ascend NPU.

  • De Analogie: In plaats van een raceauto die alleen op benzine rijdt, hebben ze een elektrische auto gebouwd die perfect werkt op het lokale elektriciteitsnet. Ze hebben bewezen dat je net zo snel en slim kunt rijden zonder die dure benzine (CUDA).

2. Hoe werkt het? (De Bouwstenen)

Om deze robot te maken, hebben ze drie belangrijke onderdelen samengevoegd:

  • De Oren (Whisper): Dit is het deel dat het geluid opvangt en omzet in een soort "luister-gevoelens". Het is als een zeer gevoelig microfoonsysteem dat weet of iemand fluistert of schreeuwt.
  • De Vertaler (Adapter): Omdat de "oren" en het "brein" in verschillende talen spreken, hebben ze een vertaler nodig. Deze vertaler maakt het geluid begrijpelijk voor het brein en maakt het korter, zodat het sneller verwerkt kan worden.
  • Het Brein (OpenPangu-7B): Dit is het grote brein van de robot. Het is een "Large Language Model" (een slimme tekst-robot) dat speciaal is getraind om te werken op de Ascend-chips. Het is als een professor die niet alleen tekst begrijpt, maar ook de bedoeling achter je woorden snapt.

3. De Leermethode: Stap voor Stap

Je kunt zo'n slimme robot niet in één dag laten leren. De onderzoekers hebben een slimme drie-stappen methode gebruikt (zoals het leren van een kind):

  1. Stap 1: Luisteren en Herkennen: Eerst leren ze de robot om specifieke taken te doen, zoals "schrijf op wat er gezegd wordt" of "zeg of dit een man of vrouw is". Ze gebruiken hiervoor vaste commando's.
  2. Stap 2: De Intentie Begrijpen (Alleen tekst): Dan leren ze de robot om te begrijpen wat mensen eigenlijk bedoelen, zonder dat er geluid is. Als iemand zegt: "Vertel me eens wie er spreekt", begrijpt de robot dat hij de leeftijd moet raden, zonder dat er een strak commando is.
  3. Stap 3: Alles Samenvoegen: Tot slot leren ze de robot om tegelijkertijd te luisteren en te begrijpen. Als jij vraagt: "Wat zegt deze audio en hoe oud is de spreker?", dan doet de robot beide dingen in één keer, zonder dat jij eerst een speciaal knopje hoeft in te drukken.

4. Wat is het resultaat?

De onderzoekers hebben getest of hun "elektrische" robot net zo goed is als de "benzine-robots" (die op NVIDIA-chips draaien).

  • Het verdict: Ja! De OSUM-Pangu robot is net zo slim. Hij kan tekst uitschrijven, de stemming van een spreker herkennen en zelfs de leeftijd raden, met een nauwkeurigheid die vergelijkbaar is met de duurste modellen.
  • De grote winst: Hij begrijpt 90% van de natuurlijke vragen die mensen stellen. Mensen kunnen dus gewoon praten zoals ze normaal doen, en de robot begrijpt het.

Waarom is dit belangrijk?

Vroeger was het alsof je alleen maar een auto kon rijden als je in een land woonde met benzinepompen. Nu hebben deze onderzoekers bewezen dat je ook een snelle, slimme auto kunt bouwen die werkt op elektriciteit (Ascend-chips).

Dit opent de deur voor landen en bedrijven die geen toegang hebben tot de Amerikaanse technologie, zodat ze hun eigen slimme spraakcomputers kunnen bouwen. Het is een stap naar een wereld waar slimme technologie voor iedereen beschikbaar is, niet alleen voor degenen met de duurste apparatuur.

Kortom: Ze hebben een slimme "luister-robot" gebouwd die werkt op een ander type computer dan gebruikelijk, die net zo goed is als de beste, en die begrijpt wat mensen echt bedoelen.