OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

O artigo apresenta o OSUM-Pangu, um modelo de fundação de compreensão de fala totalmente open-source desenvolvido na plataforma Ascend NPU sem dependência de CUDA, que integra um encoder de áudio ao LLM OpenPangu-7B para alcançar desempenho comparável a modelos baseados em GPU enquanto promove a evolução independente da inteligência multimodal.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie

Publicado Thu, 12 Ma
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-herói da inteligência artificial chamado OSUM-Pangu. A missão dele é entender não apenas o que as pessoas dizem, mas também como elas dizem (são felizes, tristes, quantos anos têm, etc.).

Aqui está a história desse projeto, contada de forma simples:

1. O Problema: A "Fábrica" de Computadores

Até hoje, a maioria desses super-heróis de IA foi treinada e vive em uma "fábrica" muito específica chamada NVIDIA CUDA (que usa placas de vídeo potentes). É como se todos os carros de corrida tivessem que usar apenas um tipo específico de gasolina e peças de uma única marca.

O problema? Se você quiser usar esse carro em outro país ou com outro tipo de combustível, ele não funciona. Isso deixa de fora muitas tecnologias e computadores que não usam essa "gasolina" específica (como os chips Ascend NPU, muito comuns na China e em outros lugares).

2. A Solução: O OSUM-Pangu

Os pesquisadores da Universidade Politécnica do Noroeste (na China) criaram o OSUM-Pangu. Eles pegaram um modelo de linguagem gigante e aberto (chamado openPangu) e o conectaram a um "ouvido" digital (um encoder de áudio).

A Grande Inovação:
Eles conseguiram fazer esse super-herói funcionar 100% em chips Ascend NPU, sem precisar da "gasolina" NVIDIA CUDA. É como se eles tivessem construído um carro que roda perfeitamente em qualquer tipo de terreno e com qualquer combustível, sem perder velocidade.

3. Como Ele Aprende? (O Treinamento em 3 Etapas)

Para ensinar o robô a entender tudo isso, eles usaram um método inteligente, como se estivessem treinando um aluno para uma prova difícil:

  • Etapa 1: Ouvir e Identificar. Primeiro, eles ensinaram o robô a ouvir o áudio e dizer: "Isso é uma transcrição (ASR)" ou "Isso é uma voz de criança". É como ensinar a criança a reconhecer sons.
  • Etapa 2: Entender a Intenção. Depois, eles ensinaram o robô a ler o que o humano escreveu. Se você perguntar "Quantos anos essa pessoa tem?", ele precisa entender que você quer uma estimativa de idade, e não uma transcrição.
  • Etapa 3: Juntar Tudo. Finalmente, eles misturaram as duas coisas. Agora, o robô ouve o áudio, lê a sua pergunta em linguagem natural e responde exatamente o que você pediu, sem precisar de comandos rígidos.

4. O Resultado: Um "Poliglota" de Áudio

O OSUM-Pangu é incrível porque:

  • É Aberto: Todo mundo pode usar, estudar e melhorar (é "Open-Source").
  • É Inteligente: Ele consegue seguir instruções naturais. Você pode perguntar: "O que essa gravação diz? A pessoa parece jovem?" e ele responde: "A pessoa diz 'Olá', e parece ter cerca de 30 anos".
  • É Competitivo: Mesmo rodando em chips diferentes (NPU), ele compete de igual para igual com os modelos mais famosos que rodam em placas de vídeo caras (GPU). Na verdade, em algumas tarefas, como detectar a idade ou o estilo da voz, ele até venceu os concorrentes!

5. Por que isso importa?

Imagine que a IA é uma biblioteca gigante. Até agora, essa biblioteca só podia ser acessada por quem tinha um "cartão de membro" muito caro e específico (os chips NVIDIA).

Com o OSUM-Pangu, os pesquisadores abriram as portas para que qualquer pessoa, em qualquer lugar, com qualquer tipo de computador moderno, possa usar essa inteligência. Eles provaram que não é necessário depender de uma única tecnologia para criar o futuro da inteligência artificial.

Resumo da Ópera:
O OSUM-Pangu é um modelo de IA de código aberto que ouve, entende e conversa, rodando em chips alternativos (Ascend) com a mesma eficiência dos modelos tradicionais, democratizando o acesso à inteligência de voz.