cs.SD Arbeiten | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Die Studie stellt TimberAgent vor, ein grammatikgestütztes Retrieval-System, das mithilfe von Texture-Resonance-Retrieval (TRR) auf Basis von Gram-Matrizen aus Wav2Vec2-Aktivierungen semantische Benutzerabsichten in präzise, bearbeitbare Audio-Effekt-Konfigurationen übersetzt und dabei in einem Gitarren-Effekt-Benchmark die niedrigsten Parameterfehler im Vergleich zu bestehenden Methoden aufweist.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Die Arbeit stellt das differentiable Pulse-Train-Resonator-Modell (PTR) vor, das Motorengeräusche durch die direkte physikalisch informierte Synthese von Druckimpulsen und deren Resonanzsimulation erzeugt und dabei eine signifikant bessere Klangrekonstruktion sowie interpretierbare physikalische Parameter bietet.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Die Arbeit stellt EmoSURA vor, ein neuartiges Evaluierungsframework, das durch die Zerlegung von emotionalen Sprachbeschreibungen in atomare Einheiten und deren audio-basierte Verifizierung sowie die Einführung des SURABench-Tests eine genauere und zuverlässigere Bewertung als herkömmliche Metriken ermöglicht.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Die Arbeit stellt SCENEBench vor, ein Benchmark-System für Large Audio Language Models, das Audioverständnis über die reine Spracherkennung hinaus in vier praxisrelevanten Kategorien wie Hintergrundgeräuschverständnis und Lokalisierung bewertet und dabei sowohl synthetische als auch natürliche Daten zur Validierung nutzt.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Diese Arbeit stellt das multimodale System MLVAS vor, das durch die Kombination von Videostroboskopie und Audioanalyse sowie fortschrittlicher Segmentierung und Merkmalsextraktion eine objektive, assistierte Diagnose der Stimmlippenlähmung ermöglicht.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Die Arbeit stellt ExpGest vor, ein neuartiges Diffusionsmodell, das durch die Synchronisation von Audio- und Textinformationen sowie einen speziellen Emotionsklassifikator erstmals ausdrucksstarke, kontrollierbare Ganzkörpergesten erzeugt und damit die Starrheit bestehender Upper-Body-Methoden überwindet.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Die Studie stellt WaLi vor, ein System, das mithilfe eines komplexwertigen Conformer-Modells und einer globalen Aufmerksamkeitskomponente vertrauliche Sprache aus den oft vernachlässigten Druckdaten von HVAC-Sensoren rekonstruiert und damit eine bisher unbeachtete, erhebliche Privatsphärenbedrohung aufzeigt.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Die SUBARU-Methode ermöglicht eine signifikante Stromreduzierung bei Hörgeräten durch den gezielten Einsatz von Sub-Nyquist-Abtastung und niedriger Bitauflösung in Kombination mit einem effizienten Upsampling-Verfahren, das dennoch eine hochwertige Sprachverbesserung in Echtzeit gewährleistet.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Das Paper stellt ECHO vor, ein frequenzbewusstes hierarchisches Encoder-Modell für Basis-Modelle, das durch Band-Split-Architektur und gleitende Patches variable Signallängen und beliebige Abtastraten unterstützt und damit bei der Anomalieerkennung und Fehlerklassifizierung in industriellen Maschinensignalen state-of-the-art Ergebnisse erzielt.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Die Arbeit stellt das erste öffentliche Korpus LibriTTS-VI vor und schlägt neue Methoden vor, um durch Entkopplung von Sprecheridentität und Stimmimpressions-Steuerung oder eine referenzfreie Technik die präzise numerische Kontrolle von Stimmimpressionsmerkmalen in der Text-zu-Sprache-Synthese zu verbessern.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Dieses Paper stellt eine effiziente Modifikation von X-Codec-2.0 vor, die durch eine Senkung der Latent-Rate auf 25 Hz und eine Erhöhung der Abtastrate auf 24 kHz die zeitliche Effizienz und die wahrgenommene Audioqualität im multilingualen Sprachkontext signifikant verbessert.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Die Studie nutzt mechanische Interpretierbarkeit, um spezifische „Hör"-Aufmerksamkeitsköpfe in Audio-Sprachmodellen zu identifizieren und durch gezielte Eingriffe in die Inferenzphase die Audio-Verarbeitung ohne Parameter-Updates signifikant zu verbessern.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Diese Arbeit stellt eine adaptive Methode vor, die Multimodale Large Language Models (MLLMs) nutzt, um in unter 11 Minuten interpretierbare Audio-Attribute für die Klassifizierung mit geringen Ressourcen effizient zu entdecken und dabei menschliche Experten zu ersetzen, was in den meisten Fällen zu besseren Ergebnissen führt als direkte MLLM-Vorhersagen.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Diese Arbeit stellt einen multimodalen Datensatz mit Audio- und Vibrationssignalen von einem einstufigen Kettenförderer vor, der unter verschiedenen Betriebsbedingungen und mit realistischen Störgeräuschen erfasst wurde, um robuste Verfahren zur industriellen Fehlererkennung und -klassifizierung zu ermöglichen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Diese Studie stellt ein automatisiertes System zur Segmentierung und Klassifizierung von Darmgeräuschen vor, das mithilfe eines tragbaren Sensors und eines Audio-Spektrogramm-Transformers eine objektive, quantitative Analyse ermöglicht und die manuelle Markierungszeit um etwa 70 % reduziert.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Die Arbeit stellt VASR vor, ein multimodales System, das durch einen Audio-Visuellen Chain-of-Thought (AV-CoT) reiche visuelle Kontextinformationen wie Szenen und Bildschirmtext nutzt, um die Spracherkennung zu verbessern und das Problem der einseitigen Abhängigkeit von einer einzelnen Modalität zu lösen.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Die Arbeit stellt ein Vocos-basiertes Modell zur Bandbreitenerweiterung vor, das durch einen neuronalen Vocoder und einen leichten Refiner Audio von 8 auf 48 kHz in Echtzeit mit hoher Qualität und extremem Durchsatz erweitert.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Zurück Weiter →