eess.AS Arbeiten | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Das Paper stellt LongAudio-RAG vor, ein hybrides Framework, das durch die Umwandlung von stundenlangen Audioaufnahmen in strukturierte, zeitgestempelte Ereignisdaten und deren gezielte Abfrage mittels SQL die präzise Beantwortung natürlicher Sprachfragen mit minimierten Halluzinationen ermöglicht.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Dieser Bericht beschreibt das TCG CREST-System für die DISPLACE-M-Herausforderung, das durch den Einsatz des hybriden End-to-End-Modells Diarizen in Kombination mit einer optimierten Agglomerativen Hierarchischen Clustering-Methode eine relative Verbesserung der Sprecherdiarisierungsfehlerquote (DER) von etwa 39 % im Vergleich zur SpeechBrain-Baseline erreichte und den sechsten Platz unter 11 Teams belegte.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Diese Arbeit stellt einen multimodalen Datensatz mit Audio- und Vibrationssignalen von einem einstufigen Kettenförderer vor, der unter verschiedenen Betriebsbedingungen und mit realistischen Störgeräuschen erfasst wurde, um robuste Verfahren zur industriellen Fehlererkennung und -klassifizierung zu ermöglichen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Diese Studie stellt ein automatisiertes System zur Segmentierung und Klassifizierung von Darmgeräuschen vor, das mithilfe eines tragbaren Sensors und eines Audio-Spektrogramm-Transformers eine objektive, quantitative Analyse ermöglicht und die manuelle Markierungszeit um etwa 70 % reduziert.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Die Studie zeigt, dass die Skalierung selbstüberwachter Sprachmodelle von 126 auf 4.017 Sprachen zu einer nicht-linearen Verbesserung der phylogenetischen Auflösung führt, die durch die Entdeckung eines robusten pazifischen Makro-Clusters und die Erfassung tieferer linguistischer und akustischer Zusammenhänge belegt wird.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Die Arbeit stellt VASR vor, ein multimodales System, das durch einen Audio-Visuellen Chain-of-Thought (AV-CoT) reiche visuelle Kontextinformationen wie Szenen und Bildschirmtext nutzt, um die Spracherkennung zu verbessern und das Problem der einseitigen Abhängigkeit von einer einzelnen Modalität zu lösen.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Die Arbeit stellt ein Vocos-basiertes Modell zur Bandbreitenerweiterung vor, das durch einen neuronalen Vocoder und einen leichten Refiner Audio von 8 auf 48 kHz in Echtzeit mit hoher Qualität und extremem Durchsatz erweitert.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Diese Arbeit stellt einen leichten Rahmen vor, der durch selbstüberwachtes Training von Low-Rank-Adaptern an einem eingefrorenen Backbone weniger als 1 % der Parameter aktualisiert und so Speech-Enhancement-Modelle für den effizienten Einsatz in Echtzeit-Umgebungen mit dynamischen akustischen Szenen optimiert.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Diese Studie zeigt, dass die Erkennung von Parkinson-Krankheit aus anonymisierter Sprache durch den Einsatz des kNN-VC-Verfahrens möglich ist, da es im Gegensatz zum STT-TTS-Ansatz die für die Diagnose entscheidenden prosodischen Merkmale weitgehend erhält und dabei einen akzeptablen Kompromiss zwischen Datenschutz und Diagnosegenauigkeit bietet.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Die Autoren stellen einen analysebasierten Rahmen zur Generierung eines öffentlichen Datensatzes mit prozedural erzeugten Motorengeräuschen und präzisen Betriebszustands-Annotationen vor, der durch die Extraktion harmonischer Strukturen aus realen Aufnahmen und deren Weiterverarbeitung in einem parametrischen Synthesizer die Lücke bei kostengünstigen, sauberen Trainingsdaten für die akustische Modellierung und neuronale Synthese schließt.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver ist ein trainingfreies, modellunabhängiges Serving-System, das die Latenz von Text-zu-Audio-Diffusionsmodellen durch das Warm-Starten mit semantisch ähnlichen, zwischengespeicherten Audiodaten um das 1,8- bis 3,0-Fache reduziert, ohne die wahrgenommene Klangqualität zu beeinträchtigen.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Das Paper stellt WhispEar vor, ein bidirektionales Framework, das mithilfe eines Normal-zu-Flüstern-Modells zur Erzeugung pseudo-paralleler Daten und eines neu veröffentlichten bilingualen Korpus die Herausforderungen der Umwandlung von Flüstern in normale Sprache überwindet.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Der Artikel stellt FoleyFlow vor, ein neues Modell zur koordinierten Video-zu-Audio-Generierung, das durch einen Maskierungsansatz zur semantischen und rhythmischen Ausrichtung sowie einen dynamischen bedingten Fluss für eine zeitlich präzise Synchronisation übertrifft bestehende Methoden.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Das Paper stellt DualTurn vor, ein Modell, das durch generatives Vortraining auf dualkanaliger Konversationsaudio natürliche Gesprächsdynamiken lernt und so überlegene Vorhersagen für Gesprächswechsel ermöglicht, ohne auf unnatürliche Stille-Timeouts angewiesen zu sein.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Diese Studie führt die Cross-Lingual Transfer Matrix (CLTM) ein, um systematisch den Einfluss von Quell- auf Zielsprachendaten bei paralinguistischen Aufgaben wie Geschlechteridentifikation und Sprecherüberprüfung zu quantifizieren und zeigt dabei, dass trotz der Annahme von Sprachunabhängigkeit signifikante, aufgabenspezifische sprachabhängige Transfermuster bestehen.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Die vorgestellte Studie demonstriert, dass ein Framework zur Audiovisuellen Spracherkennung für ressourcenarme Sprachen durch die Generierung synthetischer Videodaten mittels Lip-Syncing realer Audioaufnahmen mit statischen Gesichtsbildern erfolgreich bootstrapped werden kann, was in einer Anwendung auf Katalanisch zu einer nahezu state-of-the-art Leistung führt.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Dieser Beitrag fasst zusammen, wie selbstüberwachte und visuell verankerte Rechenmodelle zeigen, dass frühes Spracherlernen ohne starke linguistische Vorerfahrungen durch gemeinsame Lernprinzipien erklärt werden kann, die mit verschiedenen Theorien der Sprachentwicklung vereinbar sind.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Die Studie stellt mit „Trilobyte" ein neues Byte-Level-Tokenisierungsschema vor, das den Einsatz autoregressiver Sprachmodelle für verlustfreie Kompression von hochauflösendem 24-Bit-Audio ermöglicht und dabei zwar FLAC übertrifft, jedoch mit abnehmenden Kompressionsgewinnen bei steigender Bittiefe konfrontiert ist.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Die Studie zeigt, dass aktuelle Deep-Learning-Sprachentstörungssysteme durch psychoakustisch getarnte adversariale Störgeräusche so manipuliert werden können, dass sie unverständlichen Unsinn erzeugen, obwohl die Störungen für Menschen kaum wahrnehmbar sind, was die Notwendigkeit von Gegenmaßnahmen für den Einsatz in sicherheitskritischen Anwendungen unterstreicht.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Zurück Weiter →