Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Il paper presenta JHCodec, un codec audio neurale che utilizza una funzione di perdita di ricostruzione delle rappresentazioni auto-supervisionate (SSRR) per ottenere un'alta intelligibilità e una bassa latenza nel streaming, consentendo un'architettura a zero lookahead e riducendo significativamente i costi di addestramento.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Il paper propone StreamVoiceAnon+, un metodo di anonimizzazione speaker in streaming che preserva le emozioni attraverso un fine-tuning supervisionato e una distillazione emotiva a livello di frame, ottenendo un miglioramento significativo nella conservazione delle emozioni senza compromettere l'intelligibilità, la privacy o la latenza.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Questo studio empirico evidenzia le sfide dell'adattamento dei modelli di riconoscimento vocale alle lingue indigene del Pacifico a risorse limitate, dimostrando come le strategie attuali come il LoRA affrontino il dilemma tra plasticità e stabilità e portino a una grave dimenticanza catastrofica durante l'apprendimento continuo.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Questo studio cross-linguistico analizza la classificazione del parlato di bambini autistici e non autistici in finlandese, francese e slovacco, rivelando che sebbene alcuni segnali acustici siano condivisi, le prestazioni dei modelli variano significativamente tra le lingue, suggerendo la necessità di approcci che tengano conto delle specificità linguistiche e delle condizioni di registrazione.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Il paper presenta un sistema robusto e open-source che combina diarizzazione neurale e ASR per estrarre condizioni mediche da dialoghi clinici Hinglish sovrapposti, ottenendo il primo posto nella sfida DISPLACE-M grazie a un'architettura a cascata che supera i modelli proprietari in termini di accessibilità e competitività.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Questo articolo propone un approccio di intelligenza artificiale informato dalla comunità per sviluppare strumenti multidisciplinari che analizzino i video delle telecamere indossabili dalla polizia, integrando le prospettive dei cittadini per migliorare la trasparenza e la responsabilità governativa.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Questo lavoro propone un metodo di adattamento testuale-only per sistemi ASR basati su LLM, formulando il processo come un'attività di denoising del testo che permette di adattarsi a nuovi domini preservando l'allineamento cross-modale e ottenendo miglioramenti significativi rispetto agli stati dell'arte.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Il paper presenta V2A-DPO, un innovativo framework di ottimizzazione diretta delle preferenze progettato per allineare i modelli di generazione audio da video basati su flussi alle preferenze umane attraverso un sistema di valutazione AudioScore, una pipeline automatizzata per la creazione di dati e una strategia di apprendimento curricolare, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Questo studio indaga se un modello linguistico addestrato su testo possa localizzare parole contraffatte in discorsi parzialmente manipolati, rivelando che, sebbene efficace nel riconoscere specifici stili di editing nei dati di addestramento, il modello fatica a generalizzare verso stili di modifica non visti in precedenza.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Lo studio dimostra che l'utilizzo di un modello pre-addestrato XLS-R, ottimizzato con solo i primi tre livelli per ridurre i requisiti computazionali, permette di rilevare con alta precisione le attività di tosse in registrazioni audio per lo screening automatico della tubercolosi, superando le prestazioni di modelli alternativi e rendendo fattibile l'integrazione in applicazioni per smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Il paper propone una tecnica di "self-speculative decoding" che utilizza un encoder CTC come modello di bozza per accelerare l'inferenza e migliorare l'accuratezza nei sistemi di riconoscimento vocale basati su LLM, ottenendo risultati record su nove corpora con un significativo aumento della velocità di decodifica e una minima perdita di precisione.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Questo studio dimostra che l'adattamento tramite pre-addestramento continuo di wav2vec2-bert-2.0 su dati non etichettati e un limitato set di 20.000 campioni etichettati consente di raggiungere prestazioni all'avanguardia nel riconoscimento automatico del parlato in swahili, riducendo l'errore di 3,24% e superando di gran lunga i sistemi precedenti.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Il paper presenta AnimeScore, un framework basato su preferenze e un dataset di 15.000 giudizi a coppie che superano i limiti delle valutazioni soggettive tradizionali per fornire una metrica oggettiva e automatizzata dell'animosità vocale, rivelando che tale caratteristica è guidata da fattori acustici complessi come la modellazione della risonanza e la continuità prosodica piuttosto che dal semplice tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess