Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Die vorgestellte Arbeit stellt JHCodec vor, einen neuronalen Audio-Codec, der durch die Einführung eines selbstüberwachten Rekonstruktionsverlusts (SSRR) eine hohe Sprachverständlichkeit bei minimaler Latenz und geringen Trainingskosten erreicht, ohne zusätzliche Lookahead-Fenster zu benötigen.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Diese Studie zeigt, dass zwar einige akustische Merkmale zur Unterscheidung von autistischen und nicht-autistischen Kindern über die Sprachen Finnisch, Französisch und Slowakisch hinweg generalisieren, jedoch robuste, sprachübergreifende Klassifikatoren eine sprachbewusste Modellierung und homogene Aufnahmekonditionen erfordern.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Diese Arbeit stellt ein robustes, öffentlich zugängliches System vor, das durch die Kombination einer neuronalen Sprecherdiarisierung (EEND-VC) und eines feinabgestimmten Qwen3-ASR-Modells medizinische Zustände aus überlappenden, code-switchenden Hinglish-Gesprächen extrahiert und damit im DISPLACE-M-Wettbewerb den ersten Platz unter 25 Teilnehmern belegte.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Der Artikel stellt einen gemeinwohlorientierten Ansatz vor, bei dem Sozialwissenschaftler in multidisziplinären Teams entwickelt werden, um KI-Modelle zur Analyse von Polizeikörperkameras aufzunehmen, die die Perspektiven der betroffenen Gemeinschaft einbeziehen, um die demokratische Rechenschaftspflicht zu stärken.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Die vorgestellte Arbeit stellt eine leichte Text-only-Anpassungsmethode für LLM-basierte Spracherkennungssysteme vor, die durch das Framing als Textentrauschungsaufgabe eine Domänenanpassung ermöglicht, ohne die kritische Ausrichtung zwischen Sprach- und Textmodalität zu stören, und dabei signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Die Arbeit stellt V2A-DPO vor, ein neuartiges Framework zur direkten Präferenzoptimierung für flussbasierte Video-zu-Audio-Generierungsmodelle, das durch ein umfassendes AudioScore-Bewertungssystem, eine automatisierte Datengenerierungspipeline und eine Curriculum-Learning-Strategie die menschlichen Präferenzen in Bezug auf semantische Konsistenz, zeitliche Ausrichtung und klangliche Qualität verbessert und damit den aktuellen Stand der Technik übertrifft.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Die Studie untersucht, ob ein auf Text trainiertes Sprachmodell zur Lokalisierung gefälschter Wörter in teilweise manipulierter Sprache eingesetzt werden kann, und stellt fest, dass das Modell zwar in-domäneneffektiv ist, jedoch zu stark auf spezifische Trainingsmuster angewiesen ist, was die Verallgemeinerung auf unbekannte Bearbeitungsstile erschwert.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Die Studie zeigt, dass ein auf XLS-R basierendes Modell mit nur den ersten drei Schichten die Erkennung von Hustenereignissen in Audiodaten für die Tuberkulose-Screening-Programme in Südafrika und Uganda mit hoher Präzision ermöglicht und dabei rechenintensive Alternativen wie den Audio Spectrogram Transformer übertrifft.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Die Studie zeigt, dass durch fortgesetztes Vortraining mit Pseudo-Labels und anschließendes Feinabstimmen auf nur 20.000 gelabelten Swahili-Daten ein State-of-the-Art-Ergebnis von 3,24 % Wortfehlerrate erreicht wird, was eine relative Verbesserung von 82 % gegenüber der Basislinie und 61 % gegenüber dem bisherigen akademischen Rekord darstellt.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess