eess.AS articoli | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

Il paper propone ImKWS, un metodo di adattamento al momento del test per il rilevamento di parole chiave che risolve il problema dello squilibrio di classe tra parole rare e rumori di fondo, migliorando l'accuratezza in scenari realistici senza richiedere dati etichettati.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Il paper presenta JHCodec, un codec audio neurale che utilizza una funzione di perdita di ricostruzione delle rappresentazioni auto-supervisionate (SSRR) per ottenere un'alta intelligibilità e una bassa latenza nel streaming, consentendo un'architettura a zero lookahead e riducendo significativamente i costi di addestramento.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Questo studio introduce un metodo post-hoc e senza riaddestramento basato sull'attivazione steering per neutralizzare l'accento nei modelli Text-to-Speech zero-shot preservando al contempo il timbro vocale originale del parlante.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Il paper propone StreamVoiceAnon+, un metodo di anonimizzazione speaker in streaming che preserva le emozioni attraverso un fine-tuning supervisionato e una distillazione emotiva a livello di frame, ottenendo un miglioramento significativo nella conservazione delle emozioni senza compromettere l'intelligibilità, la privacy o la latenza.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Il paper presenta Whisper-CD, un framework di decoding contrastivo senza addestramento che riduce significativamente le allucinazioni e aumenta l'efficienza nel riconoscimento vocale a lungo termine confrontando i logit dell'audio pulito con quelli generati da perturbazioni acustiche negative.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Questo studio empirico evidenzia le sfide dell'adattamento dei modelli di riconoscimento vocale alle lingue indigene del Pacifico a risorse limitate, dimostrando come le strategie attuali come il LoRA affrontino il dilemma tra plasticità e stabilità e portino a una grave dimenticanza catastrofica durante l'apprendimento continuo.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Questo studio cross-linguistico analizza la classificazione del parlato di bambini autistici e non autistici in finlandese, francese e slovacco, rivelando che sebbene alcuni segnali acustici siano condivisi, le prestazioni dei modelli variano significativamente tra le lingue, suggerendo la necessità di approcci che tengano conto delle specificità linguistiche e delle condizioni di registrazione.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Questo studio analizza le differenze prosodiche tra bambini autistici e non autistici in finlandese, francese e slovacco, rivelando un profilo acustico distinto e trasversale alle lingue caratterizzato da una maggiore variabilità dell'intensità e da una qualità vocale più chiara, sfidando così i modelli basati sul deficit.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Il paper presenta un sistema robusto e open-source che combina diarizzazione neurale e ASR per estrarre condizioni mediche da dialoghi clinici Hinglish sovrapposti, ottenendo il primo posto nella sfida DISPLACE-M grazie a un'architettura a cascata che supera i modelli proprietari in termini di accessibilità e competitività.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Questo articolo propone un approccio di intelligenza artificiale informato dalla comunità per sviluppare strumenti multidisciplinari che analizzino i video delle telecamere indossabili dalla polizia, integrando le prospettive dei cittadini per migliorare la trasparenza e la responsabilità governativa.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Questo articolo presenta la prima revisione sistematica dei Modelli Audio-Linguistici, offrendo una panoramica completa, una tassonomia unificata e un'analisi del panorama di ricerca per guidare lo sviluppo futuro e le applicazioni pratiche in ambito audio.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Questo lavoro propone un metodo di adattamento testuale-only per sistemi ASR basati su LLM, formulando il processo come un'attività di denoising del testo che permette di adattarsi a nuovi domini preservando l'allineamento cross-modale e ottenendo miglioramenti significativi rispetto agli stati dell'arte.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Questo studio dimostra che i modelli di linguaggio auto-supervisionati per la codifica del parlato organizzano le informazioni fonetiche in vettori lineari e composizionali che permettono di eseguire operazioni aritmetiche per generare e modulare tratti fonologici attraverso diverse lingue.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Il paper presenta V2A-DPO, un innovativo framework di ottimizzazione diretta delle preferenze progettato per allineare i modelli di generazione audio da video basati su flussi alle preferenze umane attraverso un sistema di valutazione AudioScore, una pipeline automatizzata per la creazione di dati e una strategia di apprendimento curricolare, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Questo studio indaga se un modello linguistico addestrato su testo possa localizzare parole contraffatte in discorsi parzialmente manipolati, rivelando che, sebbene efficace nel riconoscere specifici stili di editing nei dati di addestramento, il modello fatica a generalizzare verso stili di modifica non visti in precedenza.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Lo studio dimostra che l'utilizzo di un modello pre-addestrato XLS-R, ottimizzato con solo i primi tre livelli per ridurre i requisiti computazionali, permette di rilevare con alta precisione le attività di tosse in registrazioni audio per lo screening automatico della tubercolosi, superando le prestazioni di modelli alternativi e rendendo fattibile l'integrazione in applicazioni per smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Il paper propone una tecnica di "self-speculative decoding" che utilizza un encoder CTC come modello di bozza per accelerare l'inferenza e migliorare l'accuratezza nei sistemi di riconoscimento vocale basati su LLM, ottenendo risultati record su nove corpora con un significativo aumento della velocità di decodifica e una minima perdita di precisione.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Il paper propone Fair-Gate, un framework interpretabile di gestione del rischio che affronta le disparità di genere nei sistemi biometrici vocali mitigando l'apprendimento di scorciatoie demografiche e l'entanglement delle caratteristiche, migliorando così l'equità senza compromettere le prestazioni di verifica.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Questo studio dimostra che l'adattamento tramite pre-addestramento continuo di wav2vec2-bert-2.0 su dati non etichettati e un limitato set di 20.000 campioni etichettati consente di raggiungere prestazioni all'avanguardia nel riconoscimento automatico del parlato in swahili, riducendo l'errore di 3,24% e superando di gran lunga i sistemi precedenti.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Il paper presenta AnimeScore, un framework basato su preferenze e un dataset di 15.000 giudizi a coppie che superano i limiti delle valutazioni soggettive tradizionali per fornire una metrica oggettiva e automatizzata dell'animosità vocale, rivelando che tale caratteristica è guidata da fattori acustici complessi come la modellazione della risonanza e la continuità prosodica piuttosto che dal semplice tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← Precedente Successivo →