OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

L'article présente OSUM-Pangu, un modèle fondamental de compréhension de la parole open-source entièrement développé sur la pile logicielle et matérielle non-CUDA des NPU Ascend, qui atteint des performances comparables aux modèles basés sur GPU tout en favorisant l'évolution indépendante de l'intelligence multimodale.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie

Publié Thu, 12 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, traduite en français pour le grand public.

🎙️ OSUM-Pangu : Le Traducteur Universel qui n'a pas besoin de "Carte NVIDIA"

Imaginez que vous avez un super-cerveau (une intelligence artificielle) capable de comprendre non seulement ce que vous dites, mais aussi qui le dit, comment il le dit, et même s'il ment ou s'il est triste. C'est ce qu'on appelle un modèle de compréhension de la parole.

Le problème ? La plupart de ces super-cerveaux actuels sont comme des voitures de course de Formule 1 : ils ne fonctionnent qu'avec un carburant très spécifique appelé CUDA (les puces graphiques NVIDIA). Si vous essayez de les mettre dans une voiture normale (d'autres puces comme celles d'Ascend), ils ne démarrent pas.

OSUM-Pangu, c'est l'équipe de chercheurs de l'Université Polytechnique du Nord-Ouest en Chine qui a décidé de construire un véhicule tout-terrain. Ils ont créé un modèle de compréhension de la parole qui fonctionne parfaitement sur des puces chinoises (Ascend NPU), sans avoir besoin du carburant NVIDIA.

Voici comment ils ont fait, avec quelques analogies :

1. Le Moteur : Un Cerveau fait sur mesure 🧠

Au lieu d'utiliser un moteur standard qui a besoin d'adaptateurs complexes, ils ont utilisé un moteur conçu spécifiquement pour le terrain chinois : openPangu-7B.

  • L'analogie : Imaginez que vous voulez construire une maison. La plupart des architectes utilisent des briques américaines (NVIDIA). Ces chercheurs ont pris des briques chinoises (Ascend) et ont construit un moteur (le modèle de langage) qui s'y emboîte parfaitement dès la conception. Résultat : tout est plus fluide et efficace.

2. L'Équipe de Traduction : L'Oreille et la Bouche 👂🗣️

Le modèle est composé de trois parties principales qui travaillent ensemble :

  • L'Oreille (Encodeur Audio) : C'est comme un traducteur qui écoute le son brut et le transforme en une partition de musique (des données numériques). Ils utilisent une oreille très fine (Whisper) qui reste figée pour ne pas se fatiguer.
  • Le Pont (Adaptateur) : C'est le lien entre l'oreille et le cerveau. Comme le son est très long (des minutes d'audio), ce pont le compresse, un peu comme on résume un roman de 500 pages en un résumé de 5 pages pour que le cerveau puisse le lire vite.
  • Le Cerveau (LLM) : C'est le chef d'orchestre. Il lit le résumé du son et répond à la question.

3. La Méthode d'Entraînement : Apprendre par étapes 🎓

Au lieu de jeter le modèle dans l'arène avec tout d'un coup, les chercheurs l'ont éduqué en trois étapes, comme un élève à l'école :

  • Étape 1 : L'Apprentissage des Codes. On lui apprend à reconnaître des tâches précises avec des étiquettes rigides (ex: "Si tu vois le mot , fais une transcription"). C'est comme apprendre l'alphabet.
  • Étape 2 : La Compréhension du Langage. On lui apprend à comprendre ce que les gens disent vraiment, même sans audio. Si quelqu'un dit "Quel âge a ce type ?", le cerveau comprend qu'il faut chercher l'âge, même sans le mot "âge" écrit explicitement.
  • Étape 3 : La Fusion. On met tout ensemble. Le modèle écoute un son, lit la question de l'utilisateur ("Dis-moi ce qu'il dit et son âge"), et répond tout seul, sans avoir besoin d'étiquettes rigides.

4. Le Résultat : Un Champion Polyvalent 🏆

Les chercheurs ont testé leur création et voici ce qu'ils ont découvert :

  • Performance : OSUM-Pangu est aussi fort que les meilleurs modèles qui tournent sur des puces NVIDIA. Il transcrit le texte, détecte les émotions, identifie le genre et l'âge du locuteur avec une grande précision.
  • Intelligence : Il comprend les instructions naturelles. Si vous lui demandez : "Peux-tu me dire si cette personne a l'air fâchée ?" au lieu de "Analyse l'émotion", il comprend parfaitement et répond. Son taux de réussite est de 90,2 %.
  • Indépendance : C'est la première fois qu'un tel système complet fonctionne entièrement sur une infrastructure non-NVIDIA (Ascend). C'est comme prouver qu'on peut construire un gratte-ciel aussi haut avec des matériaux locaux qu'avec des matériaux importés.

En résumé 🌟

OSUM-Pangu, c'est la preuve que l'intelligence artificielle ne doit pas être enfermée dans une seule boîte (celle de NVIDIA). En combinant un cerveau conçu pour les puces chinoises avec une méthode d'apprentissage intelligente, les chercheurs ont créé un outil libre, puissant et capable de comprendre la parole humaine dans toute sa complexité, peu importe la machine sur laquelle il tourne.

C'est une victoire pour la diversité technologique et pour l'avenir de l'intelligence artificielle ouverte à tous ! 🚀