A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Diese Studie analysiert durch ein groß angelegtes Probing-Experiment an 11 selbstüberwachten Sprachmodellen, wie diese sprecher-spezifische Informationen wie Akustik, Prosodie und paralinguistische Merkmale kodieren, und widerlegt dabei die Annahme, dass die finalen Schichten rein linguistischen Inhalt enthalten, indem sie zeigen, dass größere Modelle ihre Identität in tiefen Schichten wiederherstellen und mittlere Schichten Prosodie besser erfassen als spezialisierte Sprecher-Embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Die Arbeit stellt den MultiAPI Spoof-Datensatz mit 230 Stunden synthetischer Sprache von 30 APIs und das lokale-Aufmerksamkeits-Netzwerk Nes2Net-LA vor, um die Lücke zwischen bestehenden Benchmarks und realen, kommerziellen Spoofing-Szenarien zu schließen und gleichzeitig eine robuste Erkennung sowie eine präzise Rückverfolgung der Erstellungsquelle zu ermöglichen.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Diese Arbeit stellt eine systematische Evaluierung von Temporal-Pooling-Strategien für trainingsfreie Anomalieerkennung vor, bei der die neu vorgeschlagene relative Abweichungspooling-Methode (RDP) und eine hybride Strategie in Kombination mit vortrainierten Audio-Embeddings auf fünf Benchmark-Datensätzen nachweislich die bisherige State-of-the-Art-Leistung übertreffen.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs