eess.AS Arbeiten | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Diese Dissertation verbessert das Verständnis und die Synthese von Emotionen in der gesprochenen Sprache durch die gemeinsame Modellierung akustischer und semantischer Merkmale mittels vorab trainierter Repräsentationen, hierarchischer Erkennungssysteme für Gespräche sowie eines textlosen Frameworks für die Emotionsstilübertragung.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Die Arbeit stellt SPAR-K vor, einen modalspezifischen Early-Exit-Rahmen für interleaved gesprochene Sprachmodelle, der durch einen alternierenden Tiefenplan mit periodischen Volltiefen-Schritten die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die akustische Qualität oder die Antwortgenauigkeit merklich zu beeinträchtigen.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

Die Arbeit stellt StuPASE vor, eine Weiterentwicklung von PASE, die durch Feinabstimmung auf trockene Ziele und den Ersatz des GAN-Moduls durch Flow-Matching halluzinationsfreie Sprachverbesserung mit Studioqualität auch unter starken Störbedingungen ermöglicht.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Die Arbeit stellt das differentiable Pulse-Train-Resonator-Modell (PTR) vor, das Motorengeräusche durch die direkte physikalisch informierte Synthese von Druckimpulsen und deren Resonanzsimulation erzeugt und dabei eine signifikant bessere Klangrekonstruktion sowie interpretierbare physikalische Parameter bietet.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Diese Arbeit stellt ein End-to-End-Framework für die mehrkanalige Keyword-Erkennung vor, das durch die Kombination eines räumlichen Encoders und richtungsbezogener Priors die Robustheit in lauten Umgebungen signifikant verbessert.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Diese Arbeit stellt einen formalen Rahmen für interpolierende stochastische Differentialgleichungen (iSDEs) vor und entwickelt einen darauf aufbauenden schnellen Solver, der es ermöglicht, Diffusionsmodelle zur Sprachrestauration wie SGMSE+ mit nur zehn neuronalen Netzwerkauswertungen effizient zu lösen.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Die Arbeit stellt Speech-Omni-Lite vor, ein kosteneffizientes Framework, das vortrainierte Vision-Language-Modelle durch zwei leichte, trainierbare Module um Sprachverständnis und -generierung erweitert, ohne die ursprüngliche Leistung zu beeinträchtigen, und dabei mit einer speziellen Datenkonstruktionsstrategie auch mit begrenzten Trainingsdaten hervorragende Ergebnisse erzielt.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Diese Arbeit stellt einen neuartigen Ansatz zur Generierung von Raumimpulsantworten vor, bei dem ein vortrainiertes Text-zu-Audio-Modell durch eine auf Vision-Language-Modellen basierende Beschriftungspipeline und In-Context-Learning feinabgestimmt wird, um realistische akustische Umgebungen für Anwendungen wie die Sprachdaten-Augmentierung zu erzeugen.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Die Studie stellt das DRES-Datenset mit 1,5 Stunden semi-spontaner niederländischer Sprache aus lauten Innenräumen vor und zeigt, dass moderne einkanalige Sprachverbesserungsalgorithmen die Leistung von Spracherkennungsmodellen unter diesen realistischen Bedingungen nicht verbessern.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Dieses Paper stellt den nicht-iterativen, optimalen verteilten Multichannel-Wiener-Filter (dMWF) für drahtlose akustische Sensornetzwerke vor, der die Leistung eines zentralen Systems erreicht, ohne die Kommunikationsbandbreite zu überlasten und auch dann funktioniert, wenn Knoten unterschiedliche Quellensets beobachten, wodurch er den iterativen DANSE-Algorithmus in Bezug auf Geschwindigkeit und Effizienz übertrifft.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Diese Arbeit stellt das multimodale System MLVAS vor, das durch die Kombination von Videostroboskopie und Audioanalyse sowie fortschrittlicher Segmentierung und Merkmalsextraktion eine objektive, assistierte Diagnose der Stimmlippenlähmung ermöglicht.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Die Arbeit stellt ExpGest vor, ein neuartiges Diffusionsmodell, das durch die Synchronisation von Audio- und Textinformationen sowie einen speziellen Emotionsklassifikator erstmals ausdrucksstarke, kontrollierbare Ganzkörpergesten erzeugt und damit die Starrheit bestehender Upper-Body-Methoden überwindet.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Die Studie stellt WaLi vor, ein System, das mithilfe eines komplexwertigen Conformer-Modells und einer globalen Aufmerksamkeitskomponente vertrauliche Sprache aus den oft vernachlässigten Druckdaten von HVAC-Sensoren rekonstruiert und damit eine bisher unbeachtete, erhebliche Privatsphärenbedrohung aufzeigt.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Die SUBARU-Methode ermöglicht eine signifikante Stromreduzierung bei Hörgeräten durch den gezielten Einsatz von Sub-Nyquist-Abtastung und niedriger Bitauflösung in Kombination mit einem effizienten Upsampling-Verfahren, das dennoch eine hochwertige Sprachverbesserung in Echtzeit gewährleistet.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Das Paper stellt ECHO vor, ein frequenzbewusstes hierarchisches Encoder-Modell für Basis-Modelle, das durch Band-Split-Architektur und gleitende Patches variable Signallängen und beliebige Abtastraten unterstützt und damit bei der Anomalieerkennung und Fehlerklassifizierung in industriellen Maschinensignalen state-of-the-art Ergebnisse erzielt.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Die Arbeit stellt das erste öffentliche Korpus LibriTTS-VI vor und schlägt neue Methoden vor, um durch Entkopplung von Sprecheridentität und Stimmimpressions-Steuerung oder eine referenzfreie Technik die präzise numerische Kontrolle von Stimmimpressionsmerkmalen in der Text-zu-Sprache-Synthese zu verbessern.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Zurück Weiter →