cs.SD Arbeiten | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Diese Studie zeigt, dass selbstüberwachte Sprachmodelle über 96 Sprachen hinweg phonologische Merkmale in kompositionellen Vektoren kodieren, die eine lineare Vektorarithmetik ermöglichen, bei der das Hinzufügen oder Skalieren von Vektoren kontinuierliche phonologische Übergänge erzeugt.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Die Arbeit stellt V2A-DPO vor, ein neuartiges Framework zur direkten Präferenzoptimierung für flussbasierte Video-zu-Audio-Generierungsmodelle, das durch ein umfassendes AudioScore-Bewertungssystem, eine automatisierte Datengenerierungspipeline und eine Curriculum-Learning-Strategie die menschlichen Präferenzen in Bezug auf semantische Konsistenz, zeitliche Ausrichtung und klangliche Qualität verbessert und damit den aktuellen Stand der Technik übertrifft.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Diese Arbeit stellt ein Transformer-basiertes Framework für die audio-visuelle Emotionserkennung vor, das mithilfe von temporär ausgerichteten rotierenden Positionseingebettungen (TaRoPE) und einem Cross-Temporal Matching-Verlust die zeitliche Ausrichtung heterogener Modalitäten verbessert und so die Leistung gegenüber bestehenden Baselines steigert.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Das Papier stellt Uni-ASR vor, ein einheitliches LLM-basiertes Framework, das durch ein gemeinsames Trainingsparadigma und eine kontextbewusste Strategie nahtlos zwischen nicht-streaming- und streaming-fähiger Spracherkennung wechselt und dabei hohe Genauigkeit bei niedriger Latenz erreicht.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Diese Studie stellt eine systematische Untersuchung zur automatischen Spracherkennung bei Huntington-Krankheit vor, die durch die Einführung einer biomarkerbasierten auxiliary Supervision und die Anpassung von Modellen an pathologische Sprachmerkmale die Wortfehlerrate signifikant senkt und dabei zeigt, dass sich Fehlermuster in Abhängigkeit vom Schweregrad der Erkrankung spezifisch verändern.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Die Studie untersucht, ob ein auf Text trainiertes Sprachmodell zur Lokalisierung gefälschter Wörter in teilweise manipulierter Sprache eingesetzt werden kann, und stellt fest, dass das Modell zwar in-domäneneffektiv ist, jedoch zu stark auf spezifische Trainingsmuster angewiesen ist, was die Verallgemeinerung auf unbekannte Bearbeitungsstile erschwert.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Die Studie zeigt, dass ein auf XLS-R basierendes Modell mit nur den ersten drei Schichten die Erkennung von Hustenereignissen in Audiodaten für die Tuberkulose-Screening-Programme in Südafrika und Uganda mit hoher Präzision ermöglicht und dabei rechenintensive Alternativen wie den Audio Spectrogram Transformer übertrifft.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Der Artikel stellt Fair-Gate vor, ein fairheitsbewusstes und interpretierbares Risiko-Gating-Framework, das durch die Reduzierung demografischer Shortcut-Lernmuster und die Entflechtung geschlechtsbezogener Merkmale die Geschlechtergerechtigkeit in der Sprachbiometrie verbessert.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Die Studie zeigt, dass durch fortgesetztes Vortraining mit Pseudo-Labels und anschließendes Feinabstimmen auf nur 20.000 gelabelten Swahili-Daten ein State-of-the-Art-Ergebnis von 3,24 % Wortfehlerrate erreicht wird, was eine relative Verbesserung von 82 % gegenüber der Basislinie und 61 % gegenüber dem bisherigen akademischen Rekord darstellt.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

Die Arbeit stellt SAGE vor, ein Rahmenwerk zur stufenadaptiven Zuverlässigkeitsmodellierung, das durch die dynamische Kalibrierung und Gewichtung von Audio- und Visual-Modi basierend auf deren Interaktionsstadium die Genauigkeit der kontinuierlichen Valenz-Arousal-Schätzung in realen Umgebungen verbessert.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Die Arbeit stellt AnimeScore vor, ein präferenzbasiertes Framework zur automatischen Bewertung von Anime-Stimmen, das auf 15.000 Paarvergleichen beruht und zeigt, dass SSL-Modelle mit 90,8 % AUC eine zuverlässige Metrik für die Optimierung generativer Sprachmodelle bieten.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

Die Arbeit stellt ComVo vor, einen komplexwertigen neuronalen Vocodier, der durch native komplexe Arithmetik, Phasenquantisierung und ein effizientes Block-Matrix-Schema eine höhere Synthesequalität und schnellere Trainingszeiten als herkömmliche reellwertige Ansätze erreicht.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Die Arbeit stellt SEMamba++ vor, ein allgemeines Framework zur Sprachwiederherstellung, das durch die Einführung von Frequency GLP und einem multi-resolutionen Zeit-Frequenz-Dual-Verarbeitungsblock spezifische spektrale Muster wie Periodizität und Multi-Resolution-Analysen effizient nutzt, um bei geringem Rechenaufwand den aktuellen Stand der Technik zu übertreffen.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Die Arbeit stellt RAF (Relativistic Adversarial Feedback) vor, ein neues Trainingsziel für GAN-Sprachsynthesemodelle, das durch die Integration von selbstüberwachtem Lernen und relativistischem Pairing die Klangqualität und Generalisierungsfähigkeit verbessert und dabei BigVGAN mit nur 12 % der Parameter übertrifft.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Die Autoren stellen ein neuartiges kausales Prosodie-Mediations-Framework für das Text-zu-Sprache-System vor, das die FastSpeech2-Architektur durch explizite Emotionskonditionierung und kontrafaktische Trainingsziele erweitert, um emotionale Prosodie von linguistischem Inhalt zu entkoppeln und so eine präzisere Kontrolle über Dauer, Tonhöhe und Energie bei gleichzeitiger Verbesserung von Natürlichkeit und Emotionsdarstellung zu ermöglichen.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Die Studie stellt einen neuen Datensatz vor und zeigt, dass die Emotionserkennung aus Oberflächen-EMG-Signalen des Gesichts und des Halses sowohl bei phonierter als auch bei stummer Sprache zuverlässig möglich ist, wobei Frustration besonders gut mit einem AUC-Wert von 0,845 klassifiziert werden kann.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Die Arbeit stellt Dr. SHAP-AV vor, ein Framework zur Analyse der Beitragsverteilung von Audio- und Visualmodalitäten in der audiovisuellen Spracherkennung mittels Shapley-Werten, das aufzeigt, wie Modelle unter Rauschen zwar visuell dominieren, aber eine starke Audio-Bias beibehalten, und dabei SNR als treibenden Faktor für die Modalitätsbewertung identifiziert.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Die Arbeit stellt SGMD vor, ein stilgeleitetes Motion-Diffusion-Modell, das Transformer-Architekturen mit einem Stil-Modulationsmodul und einem räumlich-zeitlichen Maskierungsmechanismus kombiniert, um kontrollierbare, stilistisch konsistente und realistische Tanzsequenzen zu generieren, die sowohl zur Musik als auch zu benutzerdefinierten Stilvorgaben passen.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Die Arbeit stellt ExSampling vor, ein integriertes System aus Aufnahme- und Deep-Learning-Umgebung, das durch automatische Zuordnung von Feldaufnahmen zu Ableton-Live-Spuren die Echtzeit-Performance von Umgebungsgeräuschen sowie die Interaktion zwischen Aufnehmern, Komponisten und Performern ermöglicht.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← Zurück Weiter →