eess.AS Arbeiten | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Die Arbeit stellt SEMamba++ vor, ein allgemeines Framework zur Sprachwiederherstellung, das durch die Einführung von Frequency GLP und einem multi-resolutionen Zeit-Frequenz-Dual-Verarbeitungsblock spezifische spektrale Muster wie Periodizität und Multi-Resolution-Analysen effizient nutzt, um bei geringem Rechenaufwand den aktuellen Stand der Technik zu übertreffen.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Die Arbeit stellt RAF (Relativistic Adversarial Feedback) vor, ein neues Trainingsziel für GAN-Sprachsynthesemodelle, das durch die Integration von selbstüberwachtem Lernen und relativistischem Pairing die Klangqualität und Generalisierungsfähigkeit verbessert und dabei BigVGAN mit nur 12 % der Parameter übertrifft.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Die Studie stellt einen neuen Datensatz vor und zeigt, dass die Emotionserkennung aus Oberflächen-EMG-Signalen des Gesichts und des Halses sowohl bei phonierter als auch bei stummer Sprache zuverlässig möglich ist, wobei Frustration besonders gut mit einem AUC-Wert von 0,845 klassifiziert werden kann.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

Die Arbeit stellt ReDimNet2 vor, eine verbesserte Architektur zur Extraktion von Sprecherrepräsentationen, die durch eine zeitliche Pooling-Operation im 1D-Pfad eine effizientere Skalierung der Kanäle ermöglicht und damit auf den VoxCeleb1-Benchmarks eine überlegene Genauigkeit bei geringerem Rechenaufwand im Vergleich zum Vorgängermodell ReDimNet erzielt.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Die Studie zeigt, dass ein auf entrauschter MRT-Sprache trainiertes Modell auch für saubere, mRT-freie Aufnahmen effektiv zur akustisch-artikulatorischen Inversion genutzt werden kann und dabei mit einem RMSE von 1,56 mm eine vergleichbare Genauigkeit erreicht.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Diese Studie vergleicht verschiedene Stufen phonetischer Segmentierungsgenauigkeit zur Rekonstruktion des Vokaltrakts aus Sprachsignalen mittels MRT-Daten und zeigt, dass manuell korrigierte phonetische Darstellungen nach Ausrichtung die beste Leistung erbringen und die MFCC-Baseline erreichen.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Diese umfassende Übersicht stellt eine neue Taxonomie für Stille-Sprach-Schnittstellen vor, die durch die Integration von Large Language Models die Informationslücke physiologischer Biosignale schließen, die Genauigkeit für den praktischen Einsatz steigern und den Weg zu unauffälligen, ethisch gesicherten Wearables ebnen.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Die Arbeit stellt Dr. SHAP-AV vor, ein Framework zur Analyse der Beitragsverteilung von Audio- und Visualmodalitäten in der audiovisuellen Spracherkennung mittels Shapley-Werten, das aufzeigt, wie Modelle unter Rauschen zwar visuell dominieren, aber eine starke Audio-Bias beibehalten, und dabei SNR als treibenden Faktor für die Modalitätsbewertung identifiziert.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Die Arbeit stellt SGMD vor, ein stilgeleitetes Motion-Diffusion-Modell, das Transformer-Architekturen mit einem Stil-Modulationsmodul und einem räumlich-zeitlichen Maskierungsmechanismus kombiniert, um kontrollierbare, stilistisch konsistente und realistische Tanzsequenzen zu generieren, die sowohl zur Musik als auch zu benutzerdefinierten Stilvorgaben passen.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Die Arbeit stellt ExSampling vor, ein integriertes System aus Aufnahme- und Deep-Learning-Umgebung, das durch automatische Zuordnung von Feldaufnahmen zu Ableton-Live-Spuren die Echtzeit-Performance von Umgebungsgeräuschen sowie die Interaktion zwischen Aufnehmern, Komponisten und Performern ermöglicht.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Diese Studie zeigt, dass bei Kopf-Hals-Krebs-Patienten starke Zusammenhänge zwischen subjektiven und objektiven Sprachmaßen bestehen und schlägt vor, dass für das klinische Monitoring nach Chemoradiotherapie eine einzige Intelligibilitätsmessung ausreicht.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Diese Studie analysiert durch ein groß angelegtes Probing-Experiment an 11 selbstüberwachten Sprachmodellen, wie diese sprecher-spezifische Informationen wie Akustik, Prosodie und paralinguistische Merkmale kodieren, und widerlegt dabei die Annahme, dass die finalen Schichten rein linguistischen Inhalt enthalten, indem sie zeigen, dass größere Modelle ihre Identität in tiefen Schichten wiederherstellen und mittlere Schichten Prosodie besser erfassen als spezialisierte Sprecher-Embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Die vorgestellte Arbeit stellt TSPC vor, eine zweistufige, phonemzentrierte Architektur, die durch die Verwendung eines erweiterten vietnamesischen Phonemsatzes als Zwischendarstellung die Wortfehlerrate bei der Code-Switching-Erkennung für Vietnamesisch-Englisch signifikant senkt und dabei ressourceneffizient bleibt.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Das Paper stellt BabyHuBERT vor, ein selbstüberwachtes, mehrsprachiges Sprachmodell, das auf 13.000 Stunden kindzentrierter Aufnahmen trainiert wurde und bei der Unterscheidung von Sprechertypen in langen, natürlichen Aufnahmen unterrepräsentierter Sprachen deutlich bessere Ergebnisse liefert als bestehende Modelle.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Das Paper stellt SAM vor, ein Audio-Sprach-Modell mit Mamba-2-Backbone, das durch optimierte Token-Repräsentationen und Instruktionstraining mit weniger Parametern die Leistung größerer Transformer-Modelle erreicht und gleichzeitig praktische Designprinzipien für SSMs in diesem Bereich etabliert.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Die Studie zeigt, dass Sprachmodelle als Rückgrat von SpeechLLMs bei der Verarbeitung spontaner, unflüssiger Konversationen strukturelle Robustheitslücken aufweisen, wobei Reasoning-Modelle durch eine Tendenz zur semantischen Abstraktion flüssige Inhalte übermäßig löschen und Feinabstimmung zwar Spitzenleistungen erzielt, aber die Generalisierungsfähigkeit beeinträchtigt.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Die Arbeit stellt „Noise-to-Notes" vor, ein diffusion-basiertes generatives Framework für die automatische Schlagzeugtranskription, das durch die Einführung eines annealierten Pseudo-Huber-Verlusts und die Integration von Merkmalen aus Musik-Foundation-Modellen neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielt.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Die Autoren stellen Schrödinger Bridge Mamba (SBM) vor, ein effizientes Ein-Schritt-Modell für die Sprachverbesserung, das durch die Kombination des Schrödinger-Brücken-Trainingsparadigmas mit der Mamba-Architektur sowohl bei der Rauschunterdrückung als auch bei der Entreverberation überlegene Ergebnisse im Vergleich zu bestehenden Methoden erzielt.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Diese Arbeit stellt ein Multi-Loss-Lernframework für die Spracherkennung von Emotionen vor, das eine energieadaptive Mixup-Methode und ein Frame-Level-Attention-Modul integriert, um durch eine Kombination verschiedener Verlustfunktionen auf vier gängigen Datensätzen einen State-of-the-Art-Ergebnis zu erzielen.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Zurück Weiter →