RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity
이 논문은 실제 세계의 이질성 하에서 호흡기 오디오 질문 응답 (QA) 의 성능을 평가하기 위해, 공개 데이터셋을 통합하여 900 만 개의 다양한 QA 쌍을 포함하는 표준화된 벤치마크 시스템인 RA-QA 를 제안하고 현재 모델들의 한계를 분석합니다.
141 편의 논문
이 논문은 실제 세계의 이질성 하에서 호흡기 오디오 질문 응답 (QA) 의 성능을 평가하기 위해, 공개 데이터셋을 통합하여 900 만 개의 다양한 QA 쌍을 포함하는 표준화된 벤치마크 시스템인 RA-QA 를 제안하고 현재 모델들의 한계를 분석합니다.
이 논문은 제한된 컴퓨팅 자원을 가진 청각 보조 장치에서 실시간으로 여러 소리 소스를 개별적으로 추출하고 볼륨을 조절할 수 있는 최초의 시스템인 'Aurchestra'를 제안하여, 단순한 소음 제거를 넘어 환경을 프로그래밍 가능하게 만드는 정교한 사운드스케이프 제어 기술을 제시합니다.
이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.
이 논문은 frontline 의료진과 환자 간의 자연스럽고 잡음이 섞인 대화 이해를 목표로 하는 DISPLACE-M 챌린지의 데이터, 4 가지 과제 (화자 분리, 자동 음성 인식, 주제 식별, 대화 요약), 베이스라인 시스템 및 Phase-I 평가 결과를 소개합니다.
이 논문은 독일 9 개 기억 클리닉에서 수집된 알츠하이머 병 관련 경도 인지 장애 및 치매 환자의 음성 데이터, 전사본, 임상 메타데이터를 포함하는 최초의 공개 독일어 다중 센터 코퍼스인 'PARLO Dementia Corpus'를 소개하고, 이를 통해 음성 기반 인지 평가의 실현 가능성과 진단적 가치를 입증합니다.
이 논문은 사전 학습된 오디오 임베딩을 활용한 훈련 없는 이상 음향 검출에서 기존 평균 풀링의 한계를 극복하기 위해 제안한 상대 편차 풀링 (RDP) 과 하이브리드 풀링 전략이 다양한 벤치마크에서 최첨단 성능을 달성함을 입증합니다.
이 논문은 MRI 유도 전자기 간섭과 근원성 아티팩트 등 기술적 난제를 극복하기 위해 맞춤형 아티팩트 억제 파이프라인을 도입하여, 실시간 MRI, EEG, 표면 EMG 를 동시 획득함으로써 발화 생성 과정의 뇌 신호, 근육 활성화, 조음 운동을 포괄적으로 분석하는 새로운 다중 모달 접근법을 제시합니다.
이 논문은 학습이 필요 없고 해석 가능성이 높으며 계산 비용이 거의 들지 않는 컴팩트한 음향 파라미터 집합을 제안하여, 기존 심층 신경망 임베딩과 경쟁력 있는 성능을 보이는 음성 음색 속성 감지 (vTAD) 방법을 연구했습니다.
본 논문은 여러 사운드 이벤트가 공존하는 복합적 구조를 가진 폴리포닉 오디오의 추론 능력을 평가하기 위해 'PolyBench'라는 새로운 벤치마크를 제안하고, 최신 대규모 오디오 언어 모델들이 이러한 환경에서 일관된 성능 저하를 보임을 규명합니다.
이 논문은 다국어 아동 음성 말뭉치 'TinyVox'를 기반으로 개발된 자동 음소 인식 시스템 'BabAR'을 소개하며, 이를 통해 아동의 언어 발달 단계를 대규모로 측정하고 기존 연구 결과와 일치하는 성숙도 지표를 도출할 수 있음을 입증합니다.
이 논문은 시각적 단서 (입술 움직임) 를 활용하여 음성 인식 모델을 통해 화자 식별 및 음성 활동 검출을 수행하고, 주의 메커니즘을 갖춘 감독형 엔드 - 투 - 엔드 빔포밍 프레임워크를 도입함으로써 정적 및 동적 화자 환경에서 기존 방법보다 우수한 음성 향상 성능과 강인성을 달성한 새로운 비전 기반 신경 빔포밍 네트워크 (VI-NBFNet) 를 제안합니다.
이 논문은 11 가지 병합 알고리즘을 평가하고 TSV-M 기반의 새로운 알고리즘인 BoostedTSV-M 을 제안하여, 유럽 포르투갈어 다중 도메인 ASR 에서 전체 미세 조정보다 우수한 성능과 분포 외 일반화 능력을 단일 모델로 달성하는 모델 병합의 잠재력을 입증합니다.
본 논문은 신경 코덱 언어 모델의 추론 과정에서 발생하는 토큰 수준의 아티팩트와 분포 이탈을 해결하기 위해, 다중 해상도 스푸핑 탐지를 계층적 디코딩 전략에 통합하여 모델 재학습 없이 제로샷 음성 합성의 견고성과 품질을 향상시키는 'MSpoof-TTS' 프레임워크를 제안합니다.
이 논문은 임베디드 및 이종 장치에서 가변적인 컴퓨팅 요구 사항에 맞춰 조정 가능한 단일 채널 음성 분리를 위해, 불확실성을 고려한 확률론적 프레임워크를 활용하여 재구성 품질을 저해하지 않으면서도 계산 비용을 크게 절감할 수 있는 조기 종료 (early-exit) 기능을 갖춘 신경망 아키텍처를 제안합니다.
이 논문은 오디오와 악보의 시그널을 효과적으로 정렬하고 모호성을 줄이기 위해 두 개의 스트림 인코더와 심볼릭 프롬프트를 활용한 멀티모달 인터리브드 트랜스포머 모델 'LadderSym'을 제안하여 기존 방법 대비 음악 연습 오류 감지 성능을 획기적으로 개선했다고 요약할 수 있습니다.
이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.
이 논문은 EEG 신호에서 자연어를 해독할 때 발생하는 의미 편향과 신호 무시 문제를 해결하기 위해, 감성·주제·길이·놀라움이라는 네 가지 분리된 의미 목표를 통해 신경 입력에 기반한 생성을 강제하는 'SemKey' 프레임워크를 제안하고, 기존 BLEU 점수의 한계를 넘어 N-way 검색 정확도 및 프라체트 거리와 같은 새로운 평가 지표를 통해 모델의 성능을 입증합니다.
이 논문은 딥러닝 기반의 자동화 프레임워크인 SMMA 를 제안하여 음성 중 구개수근의 두께를 정밀하게 측정함으로써 대규모 연구와 임상 평가를 가능하게 했음을 보여줍니다.
이 논문은 자동 음성 인식 (ASR) 모델의 억 accent 편차를 진단하는 'ACES' 프레임워크를 제안하며, accent 정보가 인식에 필수적인 특징과 깊이 얽혀 있어 단순한 제거 방식으로는 공정성을 개선하기 어렵다는 점을 규명했습니다.
이 논문은 ICASSP 2025 음악 소스 복원 (MSR) 챌린지를 위해 CP-JKU 팀이 제안한, 3 단계 커리큘럼 학습을 거친 BandSplit-RoFormer 분리 모델과 8 개 악기별 전문가로 특화된 HiFi++ GAN 복원 모델을 결합한 다단계 음악 소스 복원 시스템을 소개합니다.