Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Questo studio dimostra che, nei pazienti con tumori testa-collo, le misure soggettive di intelligibilità, articolazione e qualità vocale sono strettamente correlate e che una singola misura di intelligibilità potrebbe essere sufficiente per il monitoraggio clinico, in quanto le valutazioni soggettive corrispondono bene alle misure acustiche oggettive.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Questo studio analizza su larga scala come 11 modelli di apprendimento auto-supervisionato del parlato codifichino gli attributi specifici del parlante, rivelando una gerarchia in cui gli strati iniziali catturano l'acustica fondamentale, quelli intermedi la prosodia dinamica e, controintuitivamente, gli strati finali dei modelli più grandi recuperano l'identità del parlante, sfidando il consenso secondo cui questi ultimi contengono esclusivamente contenuti linguistici astratti.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Il paper presenta BabyHuBERT, un modello di apprendimento auto-supervisionato multilingue addestrato su 13.000 ore di registrazioni infantili che supera le prestazioni dei modelli esistenti nel distinguere i bambini dagli adulti in registrazioni lunghe e naturali, offrendo risorse preziose per lo studio dello sviluppo linguistico in oltre 40 lingue.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Questo articolo presenta una valutazione sistematica delle strategie di pooling temporale per la rilevazione di suoni anomali senza addestramento, introducendo il pooling di deviazione relativa (RDP) e una strategia ibrida che superano le prestazioni degli approcci esistenti su cinque dataset di riferimento, inclusi risultati superiori a tutti i sistemi addestrati precedentemente riportati nel dataset DCASE2025.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Questo studio dimostra che, contrariamente all'assunto comune, l'uso del modello di enhancement audio SAM-Audio come pre-elaborazione per sistemi ASR zero-shot basati su Whisper peggiora sistematicamente le prestazioni di riconoscimento, rivelando una fondamentale discrepanza tra la qualità acustica percepita dall'uomo e la robustezza necessaria per l'elaborazione automatica.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Questo articolo presenta WhisperAlign, una soluzione per il riconoscimento automatico del parlato e la diarizzazione in bengalese a lungo termine che combina l'uso strategico di WhisperX per la segmentazione temporale e il fine-tuning specifico del dominio del modello Pyannote per migliorare l'accuratezza nella trascrizione e nella distinzione dei parlanti.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs