LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
이 논문은 수시간 분량의 오디오를 구조화된 사건 레코드로 변환하여 SQL 데이터베이스에 저장하고, 이를 기반으로 자연어 질문을 해결하는 하이브리드 RAG 프레임워크인 LongAudio-RAG 를 제안하며, 엣지-클라우드 환경에서의 실용성과 기존 방법 대비 향상된 정확도를 입증합니다.
141 편의 논문
이 논문은 수시간 분량의 오디오를 구조화된 사건 레코드로 변환하여 SQL 데이터베이스에 저장하고, 이를 기반으로 자연어 질문을 해결하는 하이브리드 RAG 프레임워크인 LongAudio-RAG 를 제안하며, 엣지-클라우드 환경에서의 실용성과 기존 방법 대비 향상된 정확도를 입증합니다.
이 논문은 DISPLACE-M 챌린지 트랙 1 을 위해 제안된 TCG CREST 시스템이 의료 대화 환경에서 SpeechBrain 기반 모듈식 파이프라인보다 DER 를 약 39% 개선한 Diarizen 기반 하이브리드 엔드투엔드 신경망 diarization 시스템을 통해 개발 세트에서 10.37%, 평가 세트에서 9.21% 의 diarization 오류율 (DER) 을 달성하여 11 개 팀 중 6 위를 기록한 결과를 보고합니다.
이 논문은 다양한 작동 조건과 공장 소음 환경에서 수집된 오디오 및 진동 신호를 포함한 멀티모달 체인 컨베이어 고장 분석용 데이터셋을 소개하고, 이를 위한 표준화된 평가 프로토콜과 기준 모델을 제시합니다.
이 논문은 SonicGuard 센서와 에너지 기반 이벤트 탐지 알고리즘 및 Audio Spectrogram Transformer 모델을 결합하여 장음 패턴을 자동 분할 및 분류하는 시스템을 개발함으로써, 수동 검사의 한계를 극복하고 위장관 기능 평가에 객관적이고 정량적인 진단 도구를 제공한다는 것을 보여줍니다.
본 논문은 126 개에서 4,017 개 언어로 확장된 자기지도학습 음성 모델 (S3M) 을 통해 언어 표상에서 지리적 근접성을 넘어 파푸아, 오세아니아, 오스트레일리아 언어를 아우르는 강력한 거대 클러스터가 나타나는 등 대규모 모델이 언어의 계통과 장기적 접촉 관계를 포착할 수 있음을 보여줍니다.
이 논문은 오디오-비주얼 연쇄 사고 (AV-CoT) 를 통해 청각 신호와 시각적 증거 간의 명시적인 교차 모달 근거를 강제함으로써 단일 모달리티 지배 문제를 완화하고, 데이터 파이프라인과 테스트 세트를 공개하여 풍부한 시각적 문맥을 활용한 음성 인식 (CAVSR) 의 성능을 획기적으로 개선한 VASR 모델을 제안합니다.
이 논문은 Vocos 기반의 신경 보코더와 경량화된 리프라이너를 결합하여 8~48kHz 대역의 결손 고주파 성분을 생성하고, NVIDIA A100 GPU 에서 실시간 인자의 0.0001 배에 달하는 극한의 처리 속도로 고품질 대역폭 확장을 실현하는 모델을 제안합니다.
이 논문은 실시간 환경 변화에 대응하여 기존 음성 향상 모델의 1% 미만 파라미터만 업데이트하는 경량 자기지도 학습 어댑터 프레임워크를 제안함으로써, 온디바이스 배포에 적합한 실시간 적응을 가능하게 하고 성능을 크게 향상시킵니다.
이 논문은 파킨슨병 음성 검출과 프라이버시 보호 간의 균형을 평가한 결과, STT-TTS 방식은 정보 손실이 크지만 kNN-VC 방식은 거시적 운율 특징을 보존하여 프라이버시를 유지하면서도 파킨슨병 검출 성능을 효과적으로 유지할 수 있음을 입증했습니다.
이 논문은 실제 엔진 녹음의 조화 구조를 분석하여 샘플 단위의 정밀한 RPM 및 토크 주석이 포함된 19 시간 분량의 'Procedural Engine Sounds Dataset'을 생성하고, 이를 통해 엔진 사운드 합성 및 제어 파라미터 추정 연구에 활용할 수 있는 데이터셋을 공개했습니다.
본 논문은 캐시된 오디오를 의미적으로 유사한 예시로 워밍업하여 학습 없이 텍스트-오디오 확산 모델의 지연 시간을 1.8~3.0 배 단축하면서도 음질을 유지하거나 향상시키는 첫 번째 모델-중립적 서비스 시스템인 'SoundWeaver'를 제안합니다.
이 논문은 풍부한 정상 발화 데이터로부터 위스퍼 발화를 생성하는 역방향 모델을 통해 확장 가능한 가짜 병렬 데이터를 확보하고, 이를 활용해 위스퍼를 정상 발화로 변환하는 성능을 대폭 향상시킨 양방향 프레임워크 'WhispEar'와 대규모 이중 언어 병렬 말뭉치를 제안합니다.
이 논문은 마스킹 오디오 - 비주얼 정렬과 동적 조건부 흐름을 통해 비디오의 의미론적 및 리듬적 특성과 정밀하게 동기화된 고품질 사운드를 생성하는 'FoleyFlow' 모델을 제안합니다.
이 논문은 두 채널의 대화 오디오를 기반으로 한 생성적 사전 학습을 통해 자연스러운 턴-테이킹을 학습하고 해석 가능한 에이전트 행동을 예측하는 'DualTurn' 모델을 제안하여, 기존 음성 파이프라인의 비자연스러운 턴 전환 문제를 해결하고 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 인간의 감정 표현이 본질적으로 모호하다는 점을 고려하여, 대규모 오디오 - 언어 모델의 추론 능력을 개선하기 위해 인간 지각 분포와 정렬된 모호성 인식 목적 함수와 구조화된 사고 연쇄 감독을 도입한 새로운 프레임워크를 제안하고 IEMOCAP 및 CREMA-D 데이터셋에서 다양한 학습 전략을 통해 그 유효성을 입증합니다.
이 논문은 말초언어적 음성 작업에서 언어 간 전이 효과를 체계적으로 정량화하기 위해 '교차 언어 전이 행렬 (CLTM)'을 제안하고, HuBERT 기반 인코더를 활용한 실험을 통해 작업과 언어에 따라 체계적이고 언어 의존적인 전이 패턴이 존재함을 규명했습니다.
이 논문은 실제 오디오와 정지 얼굴 이미지를 동기화하여 합성된 시각 데이터를 생성함으로써, 시각적 자료가 전혀 없는 언어에서도 오디오만 사용하는 모델보다 우수한 성능을 보이는 오디오비주얼 음성 인식 (AVSR) 모델을 구축할 수 있음을 입증했습니다.
이 논문은 언어적 사전 지식이 없이 음성 및 시·청각 입력만으로 초기 언어 습득을 설명하는 자기지도식 및 시각 기반 계산 모델의 최근 발전과 그 실증적 타당성을 검토합니다.
이 논문은 고비트 심도 (24 비트) 오디오의 손실 압축을 위해 어휘 크기를 상수 수준으로 줄이는 'Trilobyte' 바이트 단위 토큰화 방식을 제안하여, 기존 코덱을 능가하는 언어 모델 기반의 실용적 오디오 압축을 가능하게 했음을 보여줍니다.
이 논문은 심층 음성 제거 (DNS) 모델이 저배경 잡음 및 시뮬레이션된 오버더에어 환경에서도 청각적으로 숨겨진 적대적 잡음에 의해 이해할 수 없는 소음으로 변질될 수 있음을 보여주며, 안전이 중요한 응용 분야에서 이러한 취약성을 해결하기 위한 실질적인 대응책이 시급함을 강조합니다.