AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Dit paper introduceert AMB-DSGDN, een adaptief netwerk dat multimodale emotionele herkenning verbetert door dynamische semantische grafdifferentiatie te gebruiken voor het filteren van ruis en een evenwichtsmechanisme om te voorkomen dat dominante modaliteiten de bijdrage van andere modaliteiten onderdrukken.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Dit artikel introduceert PRoADS, een bewezen veilig en robuust audiostreamsysteem dat geheime berichten via orthogonale projectie in de initiële ruis van diffusiemodellen verbergt en gebruikmaakt van latente optimalisatie en achterwaartse Euler-inversie om reconstructiefouten te minimaliseren en een uitzonderlijk lage bitfoutkans van 0,15% onder MP3-compressie te bereiken.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Dit artikel introduceert een reeks tests op basis van psychofysische metingen van laag-niveau visie om bestaande beeld- en videokwaliteitsmetrieken te evalueren op hun vermogen om aspecten zoals contrastgevoeligheid en contrastmaskering te modelleren, en toont aan dat deze tests eigenschappen blootleggen die met standaardprotocollen vaak onopgemerkt blijven.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Dit artikel onderzoekt hoe de snelle vooruitgang van AI, met name door foundation-modellen en multimodale data, de uitdagingen en kansen voor mens-gecentreerde data-interactie en visualisatie herdefinieert, en pleit voor een nieuwe aanpak die cognitieve principes en betrouwbaarheid centraal stelt in plaats van alleen efficiëntie.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI