cs.SD papers | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

Dit onderzoek toont aan dat de keuze van muzikale feature-encodings de structuur van netwerken fundamenteel beïnvloedt, waarbij een compromis bestaat tussen rijke, gedetailleerde representaties die de toestandruimte uitbreiden en eenvoudige, geperste weergaven die een hogere onzekerheid maar lagere modelfouten opleveren voor het modelleren van menselijke verwachtingen.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Dit paper introduceert Dolphin, een efficiënt audio-visueel spraakscheidingssysteem dat door middel van een lichtgewicht lipcodering en multi-schaal globale-lokale aandacht niet alleen de staat-van-de-kunst prestaties overtreft, maar ook aanzienlijk minder parameters en rekentijd vereist.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Het paper introduceert HyWA, een methode die hypernetwerken gebruikt om gepersonaliseerde gewichten voor een standaard spraakactiviteitsdetectiemodel te genereren, wat leidt tot betere prestaties en eenvoudigere implementatie dan bestaande technieken.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

Dit artikel bepleit dat gebruikers bij het kiezen van een audiocompressiecodec niet alleen naar compressie-efficiëntie moeten kijken, maar ook de perceptuele geluidskwaliteit moeten evalueren via metingen, visualisaties en PEAQ-scores.

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Dit paper introduceert AMB-DSGDN, een adaptief netwerk dat multimodale emotionele herkenning verbetert door dynamische semantische grafdifferentiatie te gebruiken voor het filteren van ruis en een evenwichtsmechanisme om te voorkomen dat dominante modaliteiten de bijdrage van andere modaliteiten onderdrukken.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

Dit paper introduceert \texttt{nlm}, een open-source set Max-externals die real-time niet-lineaire modale synthesie voor snaren, membranen en platen mogelijk maakt en zo de drempel voor componisten en geluidsontwerpers verlaagt om deze expressieve techniek te verkennen.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA is een baanbrekende methode die voor het eerst gezamenlijk de visuele verschijning en het stemgeluid van een onderwerp personaliseert in één generatieve stap, waarbij tekst, een referentieafbeelding en een korte audioclip worden gebruikt om zowel de visuele als auditieve modaliteit te synchroniseren en te sturen.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Dit artikel introduceert PRoADS, een bewezen veilig en robuust audiostreamsysteem dat geheime berichten via orthogonale projectie in de initiële ruis van diffusiemodellen verbergt en gebruikmaakt van latente optimalisatie en achterwaartse Euler-inversie om reconstructiefouten te minimaliseren en een uitzonderlijk lage bitfoutkans van 0,15% onder MP3-compressie te bereiken.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

NasoVoce is een neusgemonteerd interface dat door het fusioneren van akoestische en trillingssignalen een robuuste, onopvallende en altijd beschikbare spraakinteractie met AI mogelijk maakt, zelfs bij fluisterende spraak in lawaaierige omgevingen.

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Dit paper introduceert FireRedASR2S, een geavanceerd industriële 'all-in-one' spraakherkenningsysteem dat geïntegreerde modules voor spraakherkenning, spraakdetectie, taalidentificatie en leestekens voorspelling combineert en hiermee state-of-the-art prestaties bereikt op diverse benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Het artikel introduceert MoXaRt, een real-time XR-systeem dat audio-visuele cues gebruikt om complexe geluidsmixen te scheiden, wat leidt tot een significante verbetering van spraakintelligibiliteit en een vermindering van de cognitieve belasting voor gebruikers.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Deze paper presenteert een encoder-only MT-ASR-framework dat semantische priors van grote taalmodellen distilleert en een talker-aantal routing introduceert, waardoor prestaties bij meertalige spraakherkenning aanzienlijk worden verbeterd met een lage rekentijd.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Dit paper introduceert Geo-ATBench, een benchmark en het GeoFusion-AT-framework voor geospatiale audiotagging, die aantonen dat het integreren van geografische semantische context de nauwkeurigheid van geluherkenning verbetert, vooral bij akoestisch vergelijkbare gebeurtenissen.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

AlphaFlowTSE is een nieuwe één-staps generatieve methode voor doel-sprekerextractie die gebruikmaakt van een voorwaartse AlphaFlow-objectief om de latentie te verminderen en de spraakherkenning te verbeteren zonder onbetrouwbare mengverhoudingsvoorspellingen.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

Dit paper introduceert PV-VASM, een modelonafhankelijk probabilistisch raamwerk dat de robuustheid van stem-anti-spoofingmodellen verifieert door de misclassificatiekans onder diverse synthetische en perturbatie-scenario's te schatten en een theoretische bovengrens voor de foutkans af te leiden.

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Dit paper introduceert HIR-SDD, een nieuw framework voor het detecteren van spraakdeepfakes dat Large Audio Language Models combineert met chain-of-thought-redenering op basis van een menselijk geannoteerde dataset om zowel de generalisatie als de interpretatie van detecties te verbeteren.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Dit paper introduceert een model-onafhankelijke evaluatieprotocol dat aantoont dat spraakbewuste LLM's een zwakke sprekerdiscriminatie hebben, en lost dit op met een lichtgewicht augmentatie die ECAPA-TDNN-embeddings via LoRA injecteert om een natuurlijke taalinterface te combineren met state-of-the-art sprekerverificatie.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Dit paper introduceert OSUM-Pangu, een volledig open-source foundation model voor multidimensionale spraakbegrip dat is gebouwd op de openPangu-7B LLM en volledig draait op Ascend NPUs zonder CUDA, waardoor een reproduceerbare, GPU-onafhankelijke baseline wordt geboden met prestaties vergelijkbaar met bestaande GPU-modellen.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Dit paper introduceert VoxCare, een schaalbaar draagbaar audiosysteem dat zonder opname van ruwe audio real-time communicatiepatronen van ziekenhuispersoneel analyseert om inzicht te krijgen in hun werklast en stressniveaus.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← Vorige Volgende →