OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "비싼 GPU"만 쓰는 AI 들
지금까지 개발된 대부분의 고성능 음성 AI(예: 사람의 목소리를 듣고 감정을 파악하거나 내용을 요약하는 AI) 는 NVIDIA 의 GPU(그래픽 카드) 라는 특수한 엔진 위에서만 잘 돌아갑니다.

비유: 마치 "고급 스포츠카 (GPU)"만 있어야만 달릴 수 있는 레이싱 게임처럼, 다른 엔진 (예: 화웨이 Ascend NPU) 이 있는 차에서는 이 게임이 아예 실행되지 않거나 매우 느리게 돌아갑니다.
문제점: 이 때문에 중국이나 다른 국가처럼 GPU 대신 자체 개발한 칩 (NPU) 을 쓰는 곳에서는 최신 음성 AI 를 쓰기 어렵다는 '기술적 장벽'이 있었습니다.

2. 해결책: OSUM-Pangu 의 등장
이 논문은 "CUDA(NVIDIA 엔진)라고 선언합니다.

핵심 아이디어: 기존에 잘 만들어진 음성 이해 기술 (OSUM) 과, 화웨이 Ascend 칩에 최적화된 거대 언어 모델 (openPangu-7B) 을 합쳤습니다.
비유: 마치 "레이싱 게임 (음성 AI) 을 고가의 스포츠카 엔진이 아닌, 우리 동네에서 쉽게 구할 수 있는 튜닝된 엔진 (Ascend NPU) 으로도 똑같이 잘 달릴 수 있게 개조한 것"입니다.

3. 어떻게 작동할까? (3 단계 훈련 과정)
이 AI 가 말을 잘 이해하도록 가르치는 과정은 3 단계로 나뉩니다.

1 단계 (귀 훈련): AI 가 소리를 듣고 내용을 파악하는 법을 배웁니다. (예: "이 소리는 '안녕하세요'다.")
2 단계 (의도 파악 훈련): 사람이 하는 말의 뉘앙스를 읽는 법을 배웁니다. (예: 사용자가 "이 노래 가사가 뭐야?"라고 묻든 "노래 내용 알려줘"라고 묻든, 둘 다 '가사 요약'이라는 의도임을 알아챕니다.)
3 단계 (합체 훈련): 소리와 의도를 동시에 처리합니다. 사용자가 "이 목소리를 듣고 나이가 몇 살인지 알려줘"라고 하면, AI 는 소리를 분석하고 나이를 추측한 뒤 정답을 말합니다.

4. 놀라운 결과

성능: 이 모델은 비싼 GPU 위에서 돌아가는 유명 모델들과 비슷하거나 오히려 더 좋은 성능을 보여주었습니다. 특히 '화자의 나이 추정'이나 '말투 분석' 같은 작업에서는 매우 뛰어났습니다.
지시 따르기 (Instruction Following): 사용자가 복잡한 문장으로 "이 소리가 무슨 뜻이고, 화자는 몇 살쯤 될까?"라고 물으면, AI 는 이를 정확히 이해하고 필요한 작업을 순서대로 수행합니다. (정답률 90.2% 달성!)

5. 왜 중요한가요?
이 연구는 **"AI 의 미래는 특정 회사의 칩 **(GPU)을 보여줍니다.

비유: 이전에는 "고급 AI 를 쓰려면 반드시 이 회사의 비싼 엔진을 사야 한다"는 독점 구조였는데, OSUM-Pangu 는 "우리도 다른 엔진으로 똑똑한 AI 를 만들 수 있다"는 것을 증명했습니다.
의의: 앞으로 전 세계 어디서나, 어떤 하드웨어를 쓰든 누구나 오픈소스 (무료 공개) 로 이 기술을 활용해 음성 AI 를 개발할 수 있는 길이 열렸습니다.

"OSUM-Pangu 는 비싼 NVIDIA 칩이 없어도, 화웨이 칩 위에서 똑똑하게 소리를 듣고 사람의 의도를 파악하는 새로운 오픈소스 AI 입니다."

유사한 논문