cs.SD Arbeiten | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Diese Arbeit untersucht die Eigenschaften endlicher (0,1)-Binärsysteme aus der Perspektive der Quantentheorie und erweitert das GenomeBits-Modell, indem sie eine komplexe Wellenfunktion als Analogon für Wahrscheinlichkeitsmaße verwendet, um charakteristische Schallwellenmerkmale in genomischen Sequenzen zu identifizieren.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Diese Studie zeigt, dass bei Kopf-Hals-Krebs-Patienten starke Zusammenhänge zwischen subjektiven und objektiven Sprachmaßen bestehen und schlägt vor, dass für das klinische Monitoring nach Chemoradiotherapie eine einzige Intelligibilitätsmessung ausreicht.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Diese Studie analysiert durch ein groß angelegtes Probing-Experiment an 11 selbstüberwachten Sprachmodellen, wie diese sprecher-spezifische Informationen wie Akustik, Prosodie und paralinguistische Merkmale kodieren, und widerlegt dabei die Annahme, dass die finalen Schichten rein linguistischen Inhalt enthalten, indem sie zeigen, dass größere Modelle ihre Identität in tiefen Schichten wiederherstellen und mittlere Schichten Prosodie besser erfassen als spezialisierte Sprecher-Embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman ist ein neuartiges Framework, das die hochwertige Animation mehrerer interagierender Personen und Objekte ermöglicht, indem es durch einen Masken-Prädiktor und lokale Audio-Bedingungen eine präzise, regionspezifische Verknüpfung multimodaler Eingaben mit den jeweiligen spatiotemporalen Fußabdrücken der Konzepte erzwingt.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Die Arbeit stellt Vevo2 vor, ein einheitliches und steuerbares Framework für die Erzeugung von Sprache und Gesang, das durch zwei spezielle Audio-Tokenisierer und eine mehrstufige Modellierungsschritte die Herausforderungen der Datenknappheit und der flexiblen Kontrolle von Prosodie, Stil und Klangfarbe überwindet.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Die vorgestellte Arbeit stellt TSPC vor, eine zweistufige, phonemzentrierte Architektur, die durch die Verwendung eines erweiterten vietnamesischen Phonemsatzes als Zwischendarstellung die Wortfehlerrate bei der Code-Switching-Erkennung für Vietnamesisch-Englisch signifikant senkt und dabei ressourceneffizient bleibt.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Das Paper stellt BabyHuBERT vor, ein selbstüberwachtes, mehrsprachiges Sprachmodell, das auf 13.000 Stunden kindzentrierter Aufnahmen trainiert wurde und bei der Unterscheidung von Sprechertypen in langen, natürlichen Aufnahmen unterrepräsentierter Sprachen deutlich bessere Ergebnisse liefert als bestehende Modelle.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Das Paper stellt SAM vor, ein Audio-Sprach-Modell mit Mamba-2-Backbone, das durch optimierte Token-Repräsentationen und Instruktionstraining mit weniger Parametern die Leistung größerer Transformer-Modelle erreicht und gleichzeitig praktische Designprinzipien für SSMs in diesem Bereich etabliert.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Die Arbeit stellt „Noise-to-Notes" vor, ein diffusion-basiertes generatives Framework für die automatische Schlagzeugtranskription, das durch die Einführung eines annealierten Pseudo-Huber-Verlusts und die Integration von Merkmalen aus Musik-Foundation-Modellen neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielt.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Die Autoren stellen Schrödinger Bridge Mamba (SBM) vor, ein effizientes Ein-Schritt-Modell für die Sprachverbesserung, das durch die Kombination des Schrödinger-Brücken-Trainingsparadigmas mit der Mamba-Architektur sowohl bei der Rauschunterdrückung als auch bei der Entreverberation überlegene Ergebnisse im Vergleich zu bestehenden Methoden erzielt.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Diese Arbeit stellt ein Multi-Loss-Lernframework für die Spracherkennung von Emotionen vor, das eine energieadaptive Mixup-Methode und ein Frame-Level-Attention-Modul integriert, um durch eine Kombination verschiedener Verlustfunktionen auf vier gängigen Datensätzen einen State-of-the-Art-Ergebnis zu erzielen.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Die Arbeit stellt den MultiAPI Spoof-Datensatz mit 230 Stunden synthetischer Sprache von 30 APIs und das lokale-Aufmerksamkeits-Netzwerk Nes2Net-LA vor, um die Lücke zwischen bestehenden Benchmarks und realen, kommerziellen Spoofing-Szenarien zu schließen und gleichzeitig eine robuste Erkennung sowie eine präzise Rückverfolgung der Erstellungsquelle zu ermöglichen.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Die Studie stellt RA-QA vor, ein umfassendes Benchmark-System mit einem standardisierten Datenpipeline und multimodalen Frage-Antwort-Paaren, das die Leistungsfähigkeit bestehender KI-Modelle bei der Analyse von Atemgeräuschen unter realen, heterogenen Bedingungen evaluiert und deren Grenzen aufzeigt.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Die Studie stellt Aurchestra vor, ein System für Hearables, das erstmals eine feingranulare, Echtzeit-Steuerung mehrerer überlappender Schallquellen direkt auf ressourcenbeschränkten Geräten ermöglicht, indem es eine dynamische Schnittstelle und ein optimiertes Multi-Output-Extraktionsnetzwerk kombiniert, um die Umgebung wie ein Audio-Mischpult individuell anzupassen.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Das Paper stellt VoxKnesset vor, einen großen, longitudinalen hebräischen Sprachdatensatz mit Parlamentsaufnahmen von 393 Sprechern über 15 Jahre, der genutzt wird, um die Auswirkungen des Alterns auf die Sprechererkennung und Altersvorhersage zu untersuchen und robuste Sprachsysteme zu entwickeln.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Diese Arbeit stellt eine systematische Evaluierung von Temporal-Pooling-Strategien für trainingsfreie Anomalieerkennung vor, bei der die neu vorgeschlagene relative Abweichungspooling-Methode (RDP) und eine hybride Strategie in Kombination mit vortrainierten Audio-Embeddings auf fünf Benchmark-Datensätzen nachweislich die bisherige State-of-the-Art-Leistung übertreffen.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Diese Studie widerlegt die gängige Annahme, dass eine Verbesserung der Audioqualität durch das Vorverarbeitungsmodell SAM-Audio die Erkennungsgenauigkeit von Zero-Shot-ASR-Systemen wie Whisper erhöht, und zeigt vielmehr, dass derartige Denoising-Verfahren die Transkriptionsleistung trotz klarer akustischer Verbesserungen systematisch verschlechtern.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Dieser Beitrag stellt eine Lösung für die DL Sprint 4.0 vor, die durch eine wortgrenzenbewusste, WhisperX-angereicherte Pipeline mit feinabgestimmten Modellen die Genauigkeit der bengalischen Langzeit-Spracherkennung und Sprecherdiarisierung in Szenarien mit überlappenden Stimmen signifikant verbessert.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

Die Arbeit stellt „Focus-Then-Listen" (FTL) vor, einen Plug-and-Play-Audioverbesserer, der die Rauschrobustheit großer Audio-Sprachmodelle durch eine modulare Trennung von Sprache und Hintergrundgeräuschen sowie eine instruktionsgesteuerte Fusion erhöht, ohne dass ein aufwendiges Nachtrainieren der Modelle erforderlich ist.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Diese Arbeit stellt die erste Ausgabe des Herausforderungswettbewerbs zur Erkennung von Deepfakes in Umgebungsgeräuschen vor, der mit 97 Teams und 1.748 Einreichungen eine umfassende Benchmark für Datensatz, Evaluierung, Baseline-Systeme und zukünftige Forschungsrichtungen in diesem bisher vernachlässigten Bereich liefert.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Zurück Weiter →