Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Dit paper introduceert JHCodec, een zelftoezichtende neural audio codec die gebruikmaakt van een representatie-reconstructieverlies om spraakintelligibiliteit en real-time prestaties te verbeteren zonder extra lookahead, terwijl het tegelijkertijd de trainingskosten verlaagt.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Dit paper introduceert een robuust, open-source cascade-systeem dat EEND-VC voor spreker-diarisatie en een aangepaste Qwen3 ASR-modellen combineert om medische aandoeningen uit overlappende Hinglish-gesprekken te extraheren, waarmee het de eerste plaats behaalde in de DISPLACE-M-uitdaging.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Dit artikel presenteert een gemeenschapsgeoriënteerde aanpak voor het ontwikkelen van multi-perspectief AI-tools ter verbetering van de politie- en overheidsverantwoording, geïllustreerd aan de hand van een multidisciplinair onderzoek naar het analyseren van bodycam-beelden van verkeerscontroles door de politie van Los Angeles.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Deze paper introduceert een lichtgewicht methode voor tekst-only adaptatie van LLM-gebaseerde spraakherkenningssystemen die het probleem omzet in een tekstontstoorningsopdracht, waardoor de modelprestaties op nieuwe domeinen aanzienlijk verbeteren zonder de cruciale kruismodaal uitlijning te verstoren.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Dit onderzoek toont aan dat een op tekst getrainde Large Language Model (LLM) kan worden ingezet om valse woorden in gedeeltelijk vervalste spraak te lokaliseren via next-token predictie, maar waarschuwt dat het model overmatig afhankelijk is van specifieke bewerkingspatronen uit de trainingsdata, wat de generalisatie naar onbekende bewerkingsstijlen beperkt.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Dit artikel presenteert een effectieve aanpak voor automatische tuberculosescreening waarbij een op XLS-R gebaseerd model, dat slechts de eerste drie lagen van het netwerk gebruikt, nauwkeurige hoestsegmenten detecteert en hierdoor de prestaties verbetert ten opzichte van bestaande methoden, wat de haalbaarheid van smartphone-applicaties ondersteunt.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Dit paper introduceert Fair-Gate, een interpreteerbaar framework dat de prestatiekloof tussen geslachten in stembiometrie verkleint door demografische shortcuts en feature-entanglement aan te pakken via risicoverlaging en een lokaal complementair gate-mechanisme dat kenmerken expliciet routeert naar identiteits- en geslachtsgebonden paden.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess