eess.AS papers | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

ImKWS is een nieuwe testtijd-adaptatiemethode voor het herkennen van sleutelwoorden in geluid die, door het splitsen van het entropie-minimalisatieproces in een belonings- en een strafvertakking, de prestaties verbetert in scenario's met een sterke onbalans tussen zeldzame sleutelwoorden en frequente achtergrondgeluiden.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Dit paper introduceert JHCodec, een zelftoezichtende neural audio codec die gebruikmaakt van een representatie-reconstructieverlies om spraakintelligibiliteit en real-time prestaties te verbeteren zonder extra lookahead, terwijl het tegelijkertijd de trainingskosten verlaagt.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Dit artikel introduceert een trainingsvrije, post-hoc methode die gebruikmaakt van activatiesturing om bij zero-shot tekst-naar-spraak de accenten van een referentiespreker te neutraliseren terwijl de stemtimbre behouden blijft.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Dit paper introduceert StreamVoiceAnon+, een methode voor streaming sprekeranonymisatie die door middel van gefinietuned neural audio codec-modellen en frame-level emotionele distillatie de emotionele inhoud behoudt zonder vertraging toe te voegen, terwijl de privacy en verstaanbaarheid worden gewaarborgd.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Dit paper introduceert Whisper-CD, een trainingsvrij contrastief decoderingsframework dat hallucinaties en herhalingslussen in lange spraaktranscripties effectief reduceert door logit-vergelijkingen met meervoudige negatieve perturbaties toe te passen tijdens de inferentie.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Deze studie toont aan dat hoewel bepaalde spraakkarakteristieken van autisme zich over verschillende talen (Fins, Frans en Slowaaks) laten generaliseren, robuuste cross-linguale classificatie vereist dat er rekening wordt gehouden met taal-specifieke nuances en opnamecondities.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Deze studie toont aan dat autisme gekenmerkt wordt door een complex, taaloverstijgend prosodisch profiel dat zich uit in variatie in intensiteit en een heldere stemkwaliteit, in plaats van een tekort, wat de noodzaak onderstreept om deze akoestische kenmerken naast traditionele toonhoogtemetingen te onderzoeken.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Dit paper introduceert een robuust, open-source cascade-systeem dat EEND-VC voor spreker-diarisatie en een aangepaste Qwen3 ASR-modellen combineert om medische aandoeningen uit overlappende Hinglish-gesprekken te extraheren, waarmee het de eerste plaats behaalde in de DISPLACE-M-uitdaging.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Dit artikel presenteert een gemeenschapsgeoriënteerde aanpak voor het ontwikkelen van multi-perspectief AI-tools ter verbetering van de politie- en overheidsverantwoording, geïllustreerd aan de hand van een multidisciplinair onderzoek naar het analyseren van bodycam-beelden van verkeerscontroles door de politie van Los Angeles.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Deze paper biedt het eerste systematische overzicht van Audio-Taalmodellen (ALM's) die op gekoppelde audio-tekstdata zijn getraind, en presenteert een uitgebreide taxonomie, een analyse van de onderzoekslandschap en een overzicht van de huidige ontwikkelingen, beperkingen en toekomstperspectieven voor toepassingen in spraak, muziek en geluid.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Deze paper introduceert een lichtgewicht methode voor tekst-only adaptatie van LLM-gebaseerde spraakherkenningssystemen die het probleem omzet in een tekstontstoorningsopdracht, waardoor de modelprestaties op nieuwe domeinen aanzienlijk verbeteren zonder de cruciale kruismodaal uitlijning te verstoren.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Dit artikel toont aan dat zelftoezichtsspraakmodellen spraak coderen via interpreteerbare en compositionalle fonologische vectoren die lineaire rekenkundige relaties tussen fonemen mogelijk maken.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Dit artikel introduceert V2A-DPO, een innovatief Direct Preference Optimization-framework dat specifiek is ontworpen voor flow-based video-naar-audio-generatiemodellen en middels drie kerninnovaties, waaronder een menselijke voorkeur-georiënteerde AudioScore, state-of-the-art prestaties bereikt die de bestaande methoden overtreffen.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Dit onderzoek toont aan dat een op tekst getrainde Large Language Model (LLM) kan worden ingezet om valse woorden in gedeeltelijk vervalste spraak te lokaliseren via next-token predictie, maar waarschuwt dat het model overmatig afhankelijk is van specifieke bewerkingspatronen uit de trainingsdata, wat de generalisatie naar onbekende bewerkingsstijlen beperkt.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Dit artikel presenteert een effectieve aanpak voor automatische tuberculosescreening waarbij een op XLS-R gebaseerd model, dat slechts de eerste drie lagen van het netwerk gebruikt, nauwkeurige hoestsegmenten detecteert en hierdoor de prestaties verbetert ten opzichte van bestaande methoden, wat de haalbaarheid van smartphone-applicaties ondersteunt.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Deze paper introduceert zelf-speculatieve decoding voor spraakherkenning, waarbij een CTC-encoder als draft-model fungeert om de auto-regressieve inferentie van spraakbewuste LLM's te versnellen en tegelijkertijd de woordfoutpercentages te verlagen.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Dit paper introduceert Fair-Gate, een interpreteerbaar framework dat de prestatiekloof tussen geslachten in stembiometrie verkleint door demografische shortcuts en feature-entanglement aan te pakken via risicoverlaging en een lokaal complementair gate-mechanisme dat kenmerken expliciet routeert naar identiteits- en geslachtsgebonden paden.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Dit artikel beschrijft hoe door middel van voortgezette pretraining op ongelabelde audio en pseudo-labels, een state-of-the-art prestatie van 3,24% woordfoutpercentage wordt bereikt voor Swahili-spraakherkenning met slechts 20.000 gelabelde voorbeelden, wat een aanzienlijke verbetering is ten opzichte van eerdere systemen.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Deze paper introduceert AnimeScore, een voorkeursgebaseerd framework dat 15.000 paarwijze beoordelingen en SSL-modellen gebruikt om een objectieve maatstaf te bieden voor het evalueren van 'anime-achtige' stemmen, waarbij wordt aangetoond dat deze stijl wordt bepaald door geresoneerde klankvorming en prosodie in plaats van alleen een hoge toonhoogte.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← Vorige Volgende →