cs.MM papers | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Deze studie introduceert een spectrogram-gebaseerde CNN-methode die MFCC-technieken overtreft bij het uitvoeren van multilabel-classificatie van complexe Zuid-Aziatische geluiden, zoals aangetoond op de SAS-KIIT- en UrbanSound8K-datasets.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Dit artikel introduceert en evalueert een schaalbaar systeem voor het streamen van dynamische puntwolken met on-the-fly transcodering, waarbij caching en speculatieve transcodering worden ingezet om de serverbelasting te verminderen en de kwaliteit van de gebruikerservaring bij gelijktijdige clients te waarborgen.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Dit artikel introduceert het Data Relativistic Uncertainty (DRU)-framework, dat een nieuw dataset en een op relativistische GAN's gebaseerde aanpak combineert om de kwaliteit van slecht verlichte anime-landschapsbeelden te verbeteren door onzekerheid in de verlichting dynamisch te benutten.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

Dit paper introduceert V-Skip, een methode die Chain-of-Thought-redenering in multimodale modellen versnelt door tokens slim te comprimeren via een dual-path mechanisme dat visuele ankers behoudt en zo 'visuele amnesie' voorkomt terwijl de nauwkeurigheid wordt gewaarborgd.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Het paper introduceert GOT-JEPA, een model-predictief pretrainingsframework dat de generalisatie en robustheid van objecttracking verbetert door het voorspellen van trackingmodellen in plaats van beeldfeatures, aangevuld met OccuSolver voor verfijnde verwerking van occlusies.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Dit paper introduceert AMB-DSGDN, een adaptief netwerk dat multimodale emotionele herkenning verbetert door dynamische semantische grafdifferentiatie te gebruiken voor het filteren van ruis en een evenwichtsmechanisme om te voorkomen dat dominante modaliteiten de bijdrage van andere modaliteiten onderdrukken.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Dit artikel introduceert PRoADS, een bewezen veilig en robuust audiostreamsysteem dat geheime berichten via orthogonale projectie in de initiële ruis van diffusiemodellen verbergt en gebruikmaakt van latente optimalisatie en achterwaartse Euler-inversie om reconstructiefouten te minimaliseren en een uitzonderlijk lage bitfoutkans van 0,15% onder MP3-compressie te bereiken.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Dit artikel introduceert P-GSVC, het eerste gelaagde progressieve 2D-Gaussian-splatting-framework dat een schaalbare oplossing biedt voor beeld- en videoherconstructie via een gezamenlijke trainingsstrategie die de prestaties aanzienlijk verbetert ten opzichte van sequentiële methoden.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

Dit paper introduceert 'Reading Activity Traces' (RATs), een concept dat lezen als creatieve activiteit beschouwt door de interpretatieve arbeid die vaak door algoritmes wordt overgeslagen, zichtbaar te maken en te documenteren.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Het artikel introduceert V2M-Zero, een methode die video naar tijd-gealigneerde muziek vertaalt zonder gekoppelde trainingsdata, door gebruik te maken van binnen-modale gebeurteniskrommen om de gedeelde temporele structuur tussen video en muziek te benutten.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Deze paper introduceert een pose-bewust in-context visueel leersysteem (PA-ICVL) voor Vision-Language Models dat de detectie van semantische structurele hallucinaties in cartoon-afbeeldingen aanzienlijk verbetert door naast RGB-beelden ook pose-informatie te gebruiken.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Dit artikel introduceert een reeks tests op basis van psychofysische metingen van laag-niveau visie om bestaande beeld- en videokwaliteitsmetrieken te evalueren op hun vermogen om aspecten zoals contrastgevoeligheid en contrastmaskering te modelleren, en toont aan dat deze tests eigenschappen blootleggen die met standaardprotocollen vaak onopgemerkt blijven.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Het paper introduceert Omni-C, een efficiënte, dichte Transformer-encoder die heterogene modaliteiten comprimeert tot gedeelde representaties zonder MoE-architecturen, waardoor de complexiteit en het geheugengebruik aanzienlijk worden verminderd terwijl de prestaties vergelijkbaar blijven met gespecialiseerde expertmodellen.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

VDCook is een zelfevoluerend videosysteem dat onderzoekers en teams in staat stelt om via natuurlijke taal en aanpasbare parameters dynamische, metadata-rijke trainingsdatasets voor multimodale taalmodellen te genereren en continu bij te werken.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Dit artikel onderzoekt hoe de snelle vooruitgang van AI, met name door foundation-modellen en multimodale data, de uitdagingen en kansen voor mens-gecentreerde data-interactie en visualisatie herdefinieert, en pleit voor een nieuwe aanpak die cognitieve principes en betrouwbaarheid centraal stelt in plaats van alleen efficiëntie.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

Dit paper introduceert Alkaid, een bewezen veilige steganografische methode die door middel van afstand-geconstrainde codering robuust is tegen edit-fouten en tegelijkertijd een hoge inbeddingscapaciteit en efficiëntie biedt.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Controllable Dance Generation with Style-Guided Motion Diffusion

Deze paper introduceert Style-Guided Motion Diffusion (SGMD), een Transformer-gebaseerd model dat muziekkenmerken combineert met stijlprompts en een ruimtetijdmaskeringmechanisme om realistische, stijlvol consistente en volledig controleerbare danssequenties te genereren.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

Dit paper introduceert altiro3D, een gratis bibliotheek die vanuit één afbeelding of video realistische 3D-ervaringen en lichtveld-inhoud genereert door diepteanalyse, inpainting en een 'Fast'-projectie-algoritme te combineren voor het creëren van meervoudige gezichtspunten.

E. Canessa, L. Tenze2026-03-10💻 cs

← Vorige Volgende →