cs.SD articoli | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Questo lavoro estende il modello GenomeBits applicando la teoria quantistica alle sequenze binarie (0,1) del genoma, definendo una funzione d'onda complessa che rivela caratteristiche ondulatorie simili al suono in relazione alle posizioni delle basi nucleotidiche.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Questo studio dimostra che, nei pazienti con tumori testa-collo, le misure soggettive di intelligibilità, articolazione e qualità vocale sono strettamente correlate e che una singola misura di intelligibilità potrebbe essere sufficiente per il monitoraggio clinico, in quanto le valutazioni soggettive corrispondono bene alle misure acustiche oggettive.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Questo studio analizza su larga scala come 11 modelli di apprendimento auto-supervisionato del parlato codifichino gli attributi specifici del parlante, rivelando una gerarchia in cui gli strati iniziali catturano l'acustica fondamentale, quelli intermedi la prosodia dinamica e, controintuitivamente, gli strati finali dei modelli più grandi recuperano l'identità del parlante, sfidando il consenso secondo cui questi ultimi contengono esclusivamente contenuti linguistici astratti.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Il documento presenta Vevo2, un framework unificato e controllabile per la generazione di voce parlata e cantata che supera le limitazioni dei dati annotati e garantisce un controllo flessibile su prosodia, stile e timbro grazie a nuovi tokenizzatori audio e strategie di addestramento congiunto.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Il paper presenta BabyHuBERT, un modello di apprendimento auto-supervisionato multilingue addestrato su 13.000 ore di registrazioni infantili che supera le prestazioni dei modelli esistenti nel distinguere i bambini dagli adulti in registrazioni lunghe e naturali, offrendo risorse preziose per lo studio dello sviluppo linguistico in oltre 40 lingue.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Il paper presenta SAM, un modello audio-linguistico basato su Mamba-2 che, grazie a un'ottimizzazione dell'encoder audio e all'addestramento con istruzioni, supera le prestazioni di modelli transformer più grandi con meno parametri, stabilendo nuovi principi di progettazione per le architetture a spazio di stato.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Il paper introduce Noise-to-Notes (N2N), un nuovo framework basato su modelli di diffusione che riformula la trascrizione automatica della batteria come un compito generativo, ottenendo prestazioni state-of-the-art grazie all'uso di una nuova funzione di perdita e all'integrazione di feature semantiche da modelli musicali fondamentali.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Il paper presenta Schrödinger Bridge Mamba (SBM), un modello innovativo che combina il paradigma di addestramento Schrödinger Bridge con l'architettura Mamba per ottenere un potenziamento della voce di alta qualità in un solo passo di inferenza, superando i metodi esistenti nel denoising e nella dereverberazione.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Il paper propone un framework di apprendimento multi-perdita per il riconoscimento delle emozioni nel parlato che integra un metodo di mixup adattivo all'energia e un modulo di attenzione a livello di frame, ottenendo prestazioni all'avanguardia su quattro dataset principali.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Il paper introduce MultiAPI Spoof, un nuovo dataset audio generato da 30 diverse API commerciali e open-source, e propone la rete Nes2Net-LA con attenzione locale per migliorare la rilevazione e l'attribuzione delle voci sintetiche in scenari realistici.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Il documento presenta RA-QA, un nuovo sistema di benchmarking che armonizza dataset pubblici per creare un vasto insieme di 9 milioni di coppie domanda-risposta audio-respiratorie, valutando le prestazioni e i limiti dei modelli multimodali attuali in condizioni di eterogeneità del mondo reale.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Il paper introduce Aurchestra, il primo sistema che consente un controllo sonoro fine e in tempo reale su dispositivi acustici limitati, permettendo agli utenti di isolare e regolare individualmente fino a cinque sorgenti sonore sovrapposte in ambienti reali.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Il paper presenta VoxKnesset, un dataset longitudinale open-source di circa 2.300 ore di discorsi parlamentari ebraici che copre 16 anni, progettato per studiare l'invecchiamento della voce e migliorare la robustezza dei sistemi di elaborazione del parlato.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Questo articolo presenta una valutazione sistematica delle strategie di pooling temporale per la rilevazione di suoni anomali senza addestramento, introducendo il pooling di deviazione relativa (RDP) e una strategia ibrida che superano le prestazioni degli approcci esistenti su cinque dataset di riferimento, inclusi risultati superiori a tutti i sistemi addestrati precedentemente riportati nel dataset DCASE2025.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Questo studio dimostra che, contrariamente all'assunto comune, l'uso del modello di enhancement audio SAM-Audio come pre-elaborazione per sistemi ASR zero-shot basati su Whisper peggiora sistematicamente le prestazioni di riconoscimento, rivelando una fondamentale discrepanza tra la qualità acustica percepita dall'uomo e la robustezza necessaria per l'elaborazione automatica.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Questo articolo presenta WhisperAlign, una soluzione per il riconoscimento automatico del parlato e la diarizzazione in bengalese a lungo termine che combina l'uso strategico di WhisperX per la segmentazione temporale e il fine-tuning specifico del dominio del modello Pyannote per migliorare l'accuratezza nella trascrizione e nella distinzione dei parlanti.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

Il paper propone Focus-Then-Listen (FTL), un potenziatore audio plug-and-play che migliora la robustezza al rumore dei grandi modelli linguistici audio separando la voce dai suoni non vocali e fondendo le modalità in base alle istruzioni dell'utente, ottenendo risultati superiori senza necessità di riaddestramento.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Questo articolo presenta la prima sfida di rilevamento dei deepfake per suoni ambientali, analizzando la costruzione del dataset, i risultati di 97 squadre e le strategie dei sistemi migliori per guidare la ricerca futura in questo campo.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Precedente Successivo →