HQTN-SER: Speech Emotion Recognition with Hybrid Quantum Tensor Networks

원저자: Mahad Mohtashim, Nouhaila Innan, Muhammad Shafique

게시일 2026-05-15

📖 4 분 읽기🧠 심층 분석

원저자: Mahad Mohtashim, Nouhaila Innan, Muhammad Shafique

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

컴퓨터가 사람의 목소리만 듣고 그 사람의 감정을 이해하도록 가르친다고 상상해 보세요. 이를 '음성 감정 인식 (Speech Emotion Recognition, SER)'이라고 합니다. 감정은 미묘하기 때문에 이 작업은 까다롭습니다. '슬픈' 목소리는 '차분한' 목소리나 '지루한' 목소리와 매우 비슷하게 들릴 수 있으며, 배경 소음이나 다른 녹음 마이크는 컴퓨터를 쉽게 혼란스럽게 만들 수 있습니다.

보통 이 분야에서 뛰어난 성능을 내기 위해서는 컴퓨터가 방대한 양의 데이터와 거대하고 복잡한 두뇌 (딥러닝 모델) 가 필요합니다. 하지만 만약 그토록 많은 데이터가 없거나, 컴퓨터가 작고 효율적이어야 한다면 어떨까요?

이 논문은 'HQTN-SER'이라는 새로운 방법을 소개합니다. 이는 고전 컴퓨터와 작고 특수한 양자 컴퓨터가 협력하여 문제를 해결하는 '하이브리드' 팀과 같습니다.

다음은 간단한 비유로 설명한 작동 원리입니다:

1. 문제: '압도된 형사'

전통적인 AI 모델은 범죄 현장의 모든 세부 사항을 외우려 노력하는 형사와 같습니다. 범죄 현장 (음성 녹음) 이 그들이 공부한 내용과 조금만 달라도 그들은 혼란에 빠집니다. 또한 학습을 위해 방대한 증거 (데이터) 도서관이 필요합니다.

저자들은 다음과 같은 질문을 던졌습니다: 거대한 도서관이 없더라도 단서 사이의 미묘한 연결 고리를 여전히 이해할 수 있는 더 똑똑하고 작은 형사를 만들 수 있을까요?

2. 해결책: '양자 팀워크'

저자들은 두 명의 파트너로 구성된 시스템을 구축했습니다:

파트너 A (고전 인코더): 이는 표준적이고 경량인 컴퓨터 두뇌입니다. 이의 역할은 목소리를 듣고 주요 내용을 짧고 깔끔한 요약 (잠재 임베딩) 으로 정리하는 것입니다. 이는 목소리의 주요 특징을 빠르게 메모하는 인간 보조원과 같습니다.
파트너 B (양자 텐서 네트워크): 이는 이 팀의 주인공입니다. 모든 것을 모든 것과 연결하려는 (지저분하고 제어하기 어려운) 표준 양자 회로 대신, **MPS(행렬 곱 상태)**라는 특정 구조를 사용합니다.

비유: '이웃 감시단'
집들이 긴 줄로 늘어서 있다고 상상해 보세요 (큐비트).

표준 양자 회로는 모든 집이 한 번에 모든 다른 집과 대화하려는 동네와 같습니다. 특히 집 (큐비트) 이 몇 채뿐일 때는 혼란스럽고 시끄럽고 관리하기 어렵습니다.
**MPS 구조 (HQTN-SER)**는 이웃 감시단과 같습니다. 1 번 집은 2 번 집과만 대화합니다. 2 번 집은 1 번과 3 번 집과 대화합니다. 3 번 집은 2 번과 4 번 집과 대화합니다.
- 이는 구조화된 의사소통 사슬을 만듭니다.
- 시스템이 논리적이고 단계적인 방식으로 패턴을 찾도록 강제합니다.
- 매우 적은 '자원' (큐비트) 을 사용하지만, 목소리의 한 부분이 다음 부분과 어떻게 연결되는지 파악하는 데 매우 뛰어납니다.

3. 협력 방식

입력: 목소리는 디지털 지도 (스펙트로그램과 같은) 로 변환됩니다.
압축: 시스템은 이 거대한 지도를 작은 크기로 줄입니다 (PCA 라는 기법 사용). 이렇게 하면 작은 양자 컴퓨터가 처리할 수 있습니다.
병렬 처리:
- 고전 파트너는 목소리의 요약을 생성합니다.
- 양자 파트너는 (이웃 감시단 구조를 사용하여) 표준 컴퓨터가 놓칠 수 있는 서로 다른 소리들 사이의 숨겨진 미묘한 연결 고리를 분석합니다.
융합: 그들은 메모를 합칩니다. 고전 요약 + 양자 '통찰력'이 결합되어 감정에 대한 최종 추측을 만듭니다.

4. 결과: 효과가 있을까요?

팀은 RAVDESS, SAVEE, MDER 등 서로 다른 언어, 억양, 녹음 품질을 포함한 세 가지 다른 음성 데이터베이스에서 이를 테스트했습니다.

점수: 하이브리드 팀은 매우 좋은 점수 (약 73% 에서 80% 의 정확도) 를 얻었으며, 이는 훨씬 더 크고 전통적인 모델들과 경쟁할 만합니다.
'솔로' 테스트: 그들은 시스템을 고전 부분만 또는 양자 부분만으로만 실행해 보았습니다.
- 고전만: 나쁘지 않았지만 훌륭하지는 않았습니다.
- 양자만: 완전히 실패했습니다.
- 결론: 마법은 그들이 함께 일할 때 발생합니다. 양자 부분은 고전 부분이 더 나은 결정을 내리는 데 도움이 되는 특정 유형의 '구조'를 추가합니다.

5. '실제 세계' 스트레스 테스트

실제 양자 컴퓨터는 현재 잡음 (정전기 잡음이 있는 라디오와 같은) 이 많기 때문에, 저자들은 잡음이 많은 실제 양자 장치를 모방하는 시뮬레이터 ('FakeMarrakesh'라고 함) 를 사용하여 모델을 테스트했습니다.

결과: 모델의 성능은 거의 변하지 않았습니다. 완벽한 '조용한' 시뮬레이터에서만큼이나 '잡음'이 많은 시뮬레이터에서도 거의 동일한 정확도를 보였습니다.
이유: '이웃 감시단' 구조 (MPS) 가 너무 단순하고 조직화되어 있어 잡음이 일을 망칠 충분한 공간이 없기 때문입니다. 이는 사무실이 조금 지저분해도 여전히 일을 해낼 수 있는 잘 조직된 팀과 같습니다.

요약

이 논문은 양자 컴퓨터가 이제 모든 것을 즉시 해결하는 마법의 슈퍼 두뇌라고 주장하지 않습니다. 대신, 양자 컴퓨터를 똑똑하고 구조화된 레이아웃(서로 대화하는 이웃들의 사슬과 같은) 으로 설계하고 표준 컴퓨터와 짝을 지으면, 음성에서 감정을 인식하는 매우 효율적이고 안정적인 시스템을 구축할 수 있음을 보여줍니다. 이는 오늘날 우리가 가진 제한적이고 잡음이 많은 양자 컴퓨터를 다룰 때 크기보다 구조가 더 중요하다는 것을 증명합니다.

기술 요약: HQTN-SER

문제 제기
음성 감정 인식 (SER) 은 감정 신호의 미묘함, 화자 의존성, 그리고 녹음 조건의 변동성으로 인해 실제 환경에서의 배포에 상당한 어려움을 겪고 있습니다. 딥러닝 모델은 높은 정확도를 달성했지만, 종종 대규모 파라미터 수와 방대하며 정제된 데이터셋에 의존하여 소규모, 불균형, 또는 화자가 제한된 데이터셋에서 과적합되기 쉽습니다. 더 나아가, 기존 SER 를 위한 양자 머신러닝 (QML) 접근법은 제한된 귀납적 편향을 가진 범용 회로 토폴로지를 자주 활용하여 일관되지 않은 성능 향상과 하이퍼파라미터 튜닝에 대한 민감성을 초래합니다. 여기서 다루는 핵심 과제는 데이터와 양자 자원 (큐비트 수 및 회로 깊이) 이 모두 제한된 상황에서 음성 특징의 구조화된 상관관계를 효과적으로 모델링하는 방법입니다.

방법론: HQTN-SER 프레임워크
본 논문은 소규모 큐비트 환경에서 작동하도록 설계된 하이브리드 양자 - 고전 프레임워크인 HQTN-SER를 제안합니다. 파이프라인은 다음 네 가지 주요 단계로 구성됩니다:

데이터 전처리: 원시 오디오는 22.05 kHz 로 리샘플링되고, 5 초로 잘리거나 패딩된 후 128 차원 멜 스펙트로그램으로 변환됩니다. 이러한 스펙트로그램은 벡터화되어 주성분 분석 (PCA) 을 사용하여 32 차원으로 압축됩니다.
특징 매핑: 압축된 32 차원 벡터는 학습 가능한 아핀 투영 ( $P, b$ ) 을 통해 저차원 입력 공간 ( $n \in \{3, 4\}$ 큐비트) 으로 매핑됩니다.
하이브리드 아키텍처:
- 고전 경로: 컴팩트한 인코더가 PCA 특징을 잠재 임베딩 ( $z_c$ ) 으로 변환합니다.
- 양자 경로: 행렬 곱 상태 (MPS) 연결성을 가진 변분 양자 회로 (VQC) 가 매핑된 입력을 처리합니다. 이 회로는 각도 인코딩 ( $R_y$ 회전) 을 followed by 국소 학습 가능 블록 ( $R_y, R_z$ ) 과 최근접 이웃 CNOT 게이트의 구조화된 시퀀스를 사용합니다. 이 MPS 구조는 얽힘을 국소 이웃으로 제한하여 파라미터 증가를 통제하고 구조화된 상관관계 모델링을 강제합니다.
- 측정: 양자 회로는 단일 큐비트 관측량 ( $Z$ ) 의 기대값을 양자 특징 ( $z_q$ ) 으로 출력합니다.
퓨전 및 분류: 고전 임베딩 ( $z_c$ ) 과 양자 측정 통계 ( $z_q$ ) 는 연결되어 완전 연결 분류기에 입력되어 감정 라벨을 예측합니다. 모델은 범주형 교차 엔트로피와 양자 기울기를 위한 파라미터 시프트 규칙을 사용하여 엔드 투 엔드로 학습됩니다.

주요 기여

MPS 에서 영감을 받은 양자 모듈: 구조화된 상관관계를 모델링하기 위해 MPS 연결성을 활용하는 양자 처리 블록의 설계로, 음성 특징을 컴팩트한 파라미터화로 모델링하며 비구조화된 깊은 변분 회로와 종종 관련된 "황량한 평야 (barren plateau)" 문제를 회피합니다.
양자 - 고전 퓨전 전략: 학습된 고전 잠재 임베딩과 양자 측정 통계를 결합하는 엔드 투 엔드 미분 가능 메커니즘으로, 양자 모듈이 독립적인 분류기가 아닌 구조화된 특징 변환기로서 작용함을 보여줍니다.
통합 다중 데이터셋 평가: 서로 다른 언어, 화자 인구 통계, 녹음 조건을 포괄하는 세 가지 서로 다른 벤치마크 (RAVDESS, SAVEE, MDER) 에 대한 엄격한 평가를 통해 결과가 특정 데이터셋에 국한되지 않음을 보장합니다.
하드웨어 인식 분석: Qiskit 의 FakeMarrakesh 잡음 모델을 사용하여 실제 장치 잡음을 시뮬레이션한 안정성 평가로, 근미래 양자 환경에서 모델의 견고성을 입증합니다.

결과
제안된 모델은 낮은 큐비트 수 (3~4 개) 로 세 가지 데이터셋 전반에 걸쳐 일관된 성능을 달성했습니다:

RAVDESS: 80.12% 정확도 (전체 F1: 0.8012).
SAVEE: 78.26% 정확도 (전체 F1: 0.7826).
MDER: 73.51% 정확도 (전체 F1: 0.7351).

절대적 분석 및 비교 결과:

절대적 분석: 양자 모듈을 제거 ("고전만") 하면 성능이 크게 저하되었으며, 특히 화자가 제한된 SAVEE 데이터셋에서 두드러졌습니다. 양자 모듈에만 의존 ("양자만") 하는 경우 성능이 낮아, MPS 모듈이 하이브리드 파이프라인 내의 구조화된 구성 요소로서 가장 효과적임을 확인했습니다.
비교: HQTN-SER 는 이전 양자 SER 방법 (예: Qubit SW Deep-ESN, CDQKL) 의 정확도와 일치하거나 초과하면서 여러 경우에서 훨씬 적은 수의 큐비트 (3~~4 대 5~~10) 와 더 적은 총 학습 가능 파라미터를 활용했습니다.
하드웨어 견고성: FakeMarrakesh 잡음 모델 하에서 평가했을 때, MDER 모델의 정확도는 미미하게만 변화했습니다 (73.51% 에서 73.45% 로). 이는 얕고 국소적으로 연결된 MPS 구조와 기대값 측정이 장치 잡음에 대한 수동적 견고성을 제공함을 나타냅니다.

의의 및 주장
본 논문은 HQTN-SER 가 "무조건적인 양자 우위"를 입증하는 것은 아니라고 겸손하게 주장하며, 대신 구조화된 양자 아키텍처가 현실적인 제약 하에서 SER 를 위한 안정적이고 해석 가능하며 파라미터 효율적인 솔루션을 제공할 수 있음을 확립합니다.

저자들은 MPS 연결성이 제한된 자원에서 범용 회로보다 더 효과적으로 상관된 음향 신호 (예: 피치 궤적 및 스펙트럼 틸트) 를 모델링하는 유익한 귀납적 편향을 도입한다고 주장합니다. 결과는 근미래 양자 지원 정서 컴퓨팅을 위해 양자 회로의 연결성 (구조) 설계가 회로의 깊이 또는 너비만큼이나 중요함을 시사합니다. 이 연구는 재현 가능한 기준선을 제공하여, 데이터가 부족하고 하드웨어 자원이 제한된 시나리오에서 특히 구조화된 양자 모듈이 오늘날 정서 컴퓨팅에 가치를 더할 수 있음을 명확히 합니다.