OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Il paper presenta OSUM-Pangu, un modello fondazionale open-source per la comprensione del parlato sviluppato interamente su hardware Ascend NPU e software non-CUDA, che integra un encoder audio con il modello linguistico OpenPangu-7B per ottenere prestazioni comparabili alle soluzioni basate su GPU.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie

Pubblicato Thu, 12 Ma
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-robot capace di ascoltare, capire e rispondere a qualsiasi cosa tu gli dica, non solo trascrivendo le tue parole, ma capendo anche se sei arrabbiato, se stai mentendo, o quanti anni ha la persona che parla. Questo è il sogno dell'intelligenza artificiale vocale.

Tuttavia, fino a poco tempo fa, per costruire questi robot serviva una "macchina da corsa" molto specifica e costosa: le schede video NVIDIA (quelle che usano i giocatori e i ricercatori con il sistema "CUDA"). Se non avevi quella macchina, non potevi costruire il robot. Era come se tutti i migliori chef dovessero usare solo un tipo specifico di fornello francese; se avevi una cucina italiana, non potevi cucinare.

Ecco che entra in scena OSUM-Pangu, il nuovo progetto presentato da ricercatori cinesi.

1. Il Problema: La "Cucina" Chiusa

Finora, i modelli vocali più intelligenti erano come chef che lavorano solo in una cucina esclusiva. Se volevi usarli, dovevi avere l'attrezzatura giusta (le GPU NVIDIA). Questo creava un muro: chi aveva computer diversi (come quelli basati su chip cinesi "Ascend NPU") restava fuori dal gioco, con robot che non capivano bene o che non funzionavano affatto.

2. La Soluzione: OSUM-Pangu, il "Chef Universale"

Gli autori hanno creato OSUM-Pangu, un modello vocale completamente open-source (cioè i suoi "ricetti" sono liberi per tutti) che funziona perfettamente su una tecnologia diversa, chiamata Ascend NPU.

Immagina OSUM-Pangu come un chef geniale che ha imparato a cucinare lo stesso piatto delizioso non solo sul fornello francese, ma anche su un fornello a gas italiano, su un barbecue o su una padella di ferro.

  • Il Cervello: Usano un "cervello" linguistico chiamato openPangu-7B, che è stato addestrato specificamente per funzionare su questi chip Ascend.
  • Le Orecchie: Aggiungono un "orecchio" (un encoder audio) che ascolta la voce e la traduce in un linguaggio che il cervello può capire.

3. Come Funziona: Il Metodo a Tre Fasi

Costruire questo robot non è stato come montare un Lego, ma più come insegnare a un bambino a parlare e capire il mondo. Hanno usato un processo in tre tappe (come mostrato nel loro diagramma):

  1. Fase 1: Imparare ad ascoltare. Prima insegnano al robot a capire la voce e a collegarla a compiti specifici (es. "Se senti una voce, scrivila").
  2. Fase 2: Imparare a capire le intenzioni. Poi insegnano al robot a leggere le tue frasi scritte e capire cosa vuoi, anche se lo dici in modo strano. Invece di dire "Fai la trascrizione", puoi dire "Cosa sta dicendo questa persona?". Il robot impara a capire l'intenzione dietro le parole.
  3. Fase 3: Tutto insieme. Infine, uniscono le orecchie e il cervello. Ora, se gli dai un file audio e gli chiedi: "Di cosa parla questo audio e quanti anni pensi abbia il parlante?", il robot non ha bisogno di istruzioni rigide. Capisce che deve fare due cose: trascrivere e stimare l'età.

4. I Risultati: Un Rivoluzionario

Il risultato è sbalorditivo. OSUM-Pangu:

  • Funziona senza la "macchina da corsa" NVIDIA: È il primo modello così potente a funzionare interamente su hardware non-CUDA.
  • È intelligente: Capisce le tue richieste in linguaggio naturale con un successo del 90,2%. Non devi imparare un codice segreto per parlargli.
  • È competitivo: Anche se usa hardware diverso, fa quasi le stesse cose (e a volte meglio) dei modelli famosi che girano su schede video costose. È come se un'auto elettrica cinese avesse la stessa velocità di una Ferrari, ma con un motore diverso.

In Sintesi

OSUM-Pangu è come se avessimo rotto il muro che separava i robot vocali intelligenti da un mondo più vasto di computer. Dimostra che non serve per forza la tecnologia americana (NVIDIA) per avere un'intelligenza artificiale vocale potente e comprensiva.

È un passo enorme per rendere l'intelligenza artificiale democratica: chiunque, con hardware diverso, potrà ora costruire i propri robot che ascoltano, capiscono e parlano con noi, senza dipendere da un unico fornitore. È l'inizio di un futuro in cui l'intelligenza vocale è davvero per tutti, ovunque.