cs.MM articoli | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Questo studio introduce un metodo innovativo basato su spettrogrammi e reti neurali convolutive che supera le tecniche tradizionali MFCC nella classificazione multietichetta dei suoni sudasiatici, ottenendo prestazioni superiori sui dataset SAS-KIIT e UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Questo lavoro presenta e valuta un sistema di streaming scalabile per nuvole di punti dinamiche che utilizza la transcodifica in tempo reale, dimostrando come l'impiego di caching e transcodifica speculativa riduca significativamente il carico computazionale e migliori l'esperienza utente.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Questo studio introduce il framework Data Relativistic Uncertainty (DRU), che affronta la scarsità di dati e l'incertezza dell'illuminazione nelle immagini di scenari anime a bassa luminosità creando un nuovo dataset non accoppiato e adattando dinamicamente le funzioni obiettivo per superare le prestazioni degli stati dell'arte.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

Il paper presenta V-Skip, un metodo che risolve il problema dell'oblio visivo nel ragionamento multimodale tramite un meccanismo di ancoraggio duale, ottenendo un'accelerazione di 2,9 volte senza compromettere l'accuratezza.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Il paper presenta GOT-JEPA, un framework di pre-addestramento basato su un'architettura predittiva a embedding congiunto che migliora la generalizzazione e la gestione delle occlusioni nel tracciamento generico di oggetti, integrando un modulo chiamato OccuSolver per stimare la visibilità e affinare i modelli di tracciamento in ambienti dinamici.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Il paper propone AMB-DSGDN, una rete neurale che utilizza un meccanismo di attenzione differenziale su grafi dinamici e un bilanciamento adattivo delle modalità per migliorare il riconoscimento delle emozioni nei dialoghi multimodali filtrando il rumore e prevenendo il dominio di una singola modalità.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Il documento presenta PRoADS, un framework di steganografia audio basato su modelli di diffusione che garantisce sicurezza e robustezza attraverso l'ottimizzazione dello spazio latente e l'inversione di Eulero all'indietro, ottenendo un tasso di errore dei bit estremamente basso anche dopo la compressione MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Il paper presenta G-STAR, un sistema end-to-end che combina un modulo di tracciamento speaker temporale con un Speech-LLM per generare trascrizioni attribuite con timestamp in contesti di parlato multi-parlante e sovrapposto, garantendo coerenza dell'identità a livello di riunione.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Il lavoro presenta P-GSVC, un nuovo framework di splatting gaussiano 2D progressivo e stratificato che offre una soluzione unificata per la rappresentazione scalabile di immagini e video, ottenendo miglioramenti significativi nella qualità della ricostruzione grazie a una strategia di addestramento congiunto delle layer.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

Il paper introduce le "Reading Activity Traces" (RATs), un approccio che riconosce la lettura come attività creativa in sé e per il futuro, rendendo visibili i processi interpretativi umani spesso oscurati dall'automazione algoritmica attraverso un'istanza speculativa su Wikipedia chiamata WikiRAT.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Il paper presenta V2M-Zero, un approccio di generazione zero-shot che allinea temporalmente la musica al video sfruttando le curve di eventi temporali calcolate indipendentemente per ciascuna modalità, ottenendo risultati superiori rispetto ai metodi basati su dati accoppiati senza richiedere training incrociato.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Il paper propone un sistema di rilevamento delle allucinazioni visive strutturali in immagini di personaggi cartonesi generati da modelli Text-to-Image, che utilizza un modello Vision-Language potenziato dall'apprendimento in contesto con informazioni sulla posa (PA-ICVL) per ottenere miglioramenti significativi rispetto ai metodi basati solo su immagini RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Questo articolo introduce un nuovo set di test basati su misurazioni psicofisiche della visione di basso livello per valutare la capacità delle metriche di qualità immagine e video di catturare fenomeni percettivi fondamentali, rivelando limiti e comportamenti specifici di 34 metriche esistenti.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

Il paper presenta VDCook, un sistema operativo auto-evolutivo per la costruzione dinamica e personalizzata di dataset video tramite query in linguaggio naturale, che integra recupero e sintesi controllata per abbattere le barriere all'addestramento di modelli multimediali in domini specifici.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Questo articolo esamina come i rapidi progressi dell'IA, in particolare i modelli fondazionali, stiano ridefinendo le interazioni uomo-dati e l'analisi visiva, evidenziando le nuove sfide legate all'incertezza e alla scalabilità e proponendo un approccio centrato sull'umano che integri principi cognitivi e percettivi per superare i limiti dei paradigmi esistenti.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

Il paper presenta Alkaid, uno schema di steganografia provatamente sicuro che garantisce resilienza agli errori di modifica tramite codifica vincolata alla distanza, ottenendo un'elevata robustezza, capacità ed efficienza rispetto ai metodi esistenti.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Il paper presenta V2A-DPO, un innovativo framework di ottimizzazione diretta delle preferenze progettato per allineare i modelli di generazione audio da video basati su flussi alle preferenze umane attraverso un sistema di valutazione AudioScore, una pipeline automatizzata per la creazione di dati e una strategia di apprendimento curricolare, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

← Precedente Successivo →