Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Questo paper presenta l'ExposureEngine, un sistema end-to-end che utilizza bounding box orientati e un'interfaccia basata su agenti linguistici per fornire un'analisi precisa, scalabile e automatizzata della visibilità degli sponsor nelle trasmissioni sportive, superando i limiti dei metodi tradizionali basati su box allineati agli assi.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Questo articolo analizza come le tecniche di editing basate su diffusione, attraverso l'iniezione di rumore e la successiva ricostruzione generativa, indeboliscano o eludano completamente i sistemi di filigrana robusti, dimostrando teoricamente e sperimentalmente che il contenuto del messaggio viene progressivamente cancellato all'aumentare dell'intensità dell'editing.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI