eess.AS Arbeiten | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Diese Arbeit zeigt, dass das Training mit hohen Ausfallraten von Modalitäten die Robustheit eines Emotions-bewussten, Multi-Enrollment-Fusionsmodells für die audio-visuelle Zielsprecherextraktion signifikant verbessert und so auch bei unvorhergesehenen Signalverlusten stabile Leistung gewährleistet.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Die Studie zeigt, dass die Wahl der musikalischen Merkmalskodierung in Netzwerkdarstellungen einen grundlegenden Zielkonflikt zwischen struktureller Detailtreue und kommunikativer Effizienz aufdeckt, wobei einfache Darstellungen zwar höhere Unsicherheit, aber bessere Lernbarkeit bieten, während komplexere Kodierungen feinere Unterscheidungen ermöglichen, jedoch die Vorhersagbarkeit für den Hörer erschweren.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

Diese Arbeit stellt MVTF vor, ein neuartiges Framework, das durch die Nutzung synchronisierter Mehransichts-Lippenvideos während des Trainings die Robustheit und Leistung der audio-visuellen Zielsprecher-Extraktion sowohl bei Einzel- als auch bei Mehransichtseingaben signifikant verbessert.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Die vorgestellte Arbeit führt ein Kalibrierungs- und Schlussfolgerungsframework ein, das Audio-LLMs durch eine Kalibrierungsphase und eine Verstärkungslernphase mit GRPO befähigt, Sprachqualität nicht nur präziser vorherzusagen, sondern auch multidimensionale Artefakte erklärbar zu beschreiben und zeitlich zu lokalisieren.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

Die Arbeit stellt \texttt{nlm} vor, eine Open-Source-Sammlung von Max-Externals in C++, die Echtzeit-Nichtlinearer-Modal-Synthese für Saiten, Membranen und Platten mit interaktiver Parametersteuerung und Mehrkanalausgabe ermöglicht.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Diese Studie zeigt durch systematische Analysen, dass aktuelle Sprach-Tokenizer primär phonetische statt lexikalisch-semantische Informationen kodieren, was zu einer Diskrepanz zwischen Sprach- und Textsemantik führt und die Leistung multimodaler Large Language Models beeinträchtigt.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Die Arbeit stellt FireRedASR2S vor, ein industrietaugliches, all-in-one Spracherkennungssystem, das durch die Integration von vier hochoptimierten Modulen für Spracherkennung, Stimmerkennung, Sprachidentifikation und Interpunktionsvorhersage state-of-the-art Ergebnisse auf zahlreichen Benchmarks für Mandarin, Dialekte und weitere Sprachen erzielt.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Das Papier stellt G-STAR vor, ein End-to-End-System, das ein zeitbewusstes Sprecher-Tracking-Modul mit einem Speech-LLM kombiniert, um für lange, überlappende Mehrpersonengespräche konsistente, zeitgestempelte und sprecherattribuierte Transkripte zu erzeugen.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Die Arbeit stellt Geo-ATBench, einen neuen Benchmark für geospatiales Audio-Tagging, und das Framework GeoFusion-AT vor, um nachzuweisen, dass die Integration geospatialer semantischer Kontexte die Mehrklassen-Erkennung von Umgebungsgeräuschen, insbesondere bei akustisch ähnlichen Ereignissen, signifikant verbessert.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Diese Studie enthüllt einen systematischen Geschlechterbias bei der Mean Opinion Score (MOS)-Bewertung, bei dem männliche Zuhörer höhere Werte vergeben, und schlägt ein geschlechterbewusstes Modell vor, das durch das Lernen geschlechtsspezifischer Bewertungsmuster eine fairere und genauere Sprachqualitätsbewertung ermöglicht.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Die Arbeit stellt CSP-FT vor, eine effiziente Strategie zur teilweisen Feinabstimmung von LLM-basierten TTS-Modellen, die durch die gezielte Anpassung nur zweier spezifischer Schichten die Trainingszeit halbiert, das Katastrophale Vergessen verhindert und gleichzeitig die Anpassungsfähigkeit an neue Sprecher und Emotionen verbessert.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Dieses Paper stellt die trajectoRIR-Datenbank vor, eine umfassende Sammlung von dynamischen und stationären akustischen Aufnahmen entlang einer kontrollierten L-förmigen Trajektorie in einem Raum, die verschiedene Mikrofonkonfigurationen und Bewegungsgeschwindigkeiten kombiniert, um Anwendungen wie Schallquellenlokalisation, räumliche Klangfeldrekonstruktion und Auralisierung zu unterstützen.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Die Arbeit stellt ParaS2S vor, ein neues Reinforcement-Learning-Framework mit einem dazugehörigen Benchmark und einem automatischen Bewerter, das Sprach-zu-Sprach-Modelle effektiv darin schult, sowohl inhaltlich als auch stilistisch (z. B. Emotionen, Tonfall) auf paralinguistische Hinweise angemessen zu reagieren und dabei weniger auf paarweise annotierte Daten angewiesen ist als herkömmliche Methoden.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Die Studie widerlegt die weit verbreitete Annahme, dass Sprach-LLMs ASR-LLM-Pipelines überlegen sind, und zeigt durch mechanistische Analysen, dass diese Modelle in den meisten Anwendungsfällen lediglich teure Kaskaden darstellen, die unter Rauschbedingungen sogar schlechter abschneiden als ihre textbasierten Pendants.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Die Arbeit stellt ein kompaktes akustisches Framework vor, das MFCC-, STFT- und Pitch-Features mit einem multi-branch CNN und einer Legendre Memory Unit (LMU) kombiniert, um durch kalibrierte Posterior-Ensemble-Fusion die domänenübergreifende Klassifizierung von Säuglingsweinen zu verbessern.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Die Arbeit stellt Whisper-RIR-Mega vor, einen neuen Benchmark-Datensatz aus gepaarten sauberen und halligen Sprachaufnahmen, der die Robustheit verschiedener Whisper-ASR-Modelle gegenüber Raumakustik-Effekten systematisch bewertet und dabei zeigt, dass Hall die Erkennungsleistung konsistent verschlechtert.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Diese Arbeit stellt eine parametrisfreie Methode zur Akzentanpassung in Sprachsprachmodellen vor, die durch die Identifikation und gezielte Steuerung von Akzentinformationen in einem schmalen Band mittlerer Encoder-Schichten die Wortfehlerrate bei verschiedenen Akzenten signifikant senkt.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← Zurück Weiter →

eess.AS