cs.MM articoli | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

On the Possible Detectability of Image-in-Image Steganography

Questo studio dimostra che gli schemi di steganografia "immagine-in-immagine" sono facilmente rilevabili attraverso l'analisi delle componenti indipendenti e i primi quattro momenti statistici, raggiungendo un'accuratezza fino al 99% e superando i metodi di steganalisi classici.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Il paper propone SGMD, un modello di diffusione guidato dallo stile che integra prompt stilistici e un meccanismo di mascheramento spaziotemporale per generare sequenze di danza realistiche, stilisticamente coerenti e controllabili in base alla musica e alle preferenze dell'utente.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

Il paper introduce altiro3D, una libreria gratuita che genera esperienze 3D realistiche e sintesi di nuove viste partendo da una singola immagine RGB o video piatto, utilizzando tecniche di stima della profondità, inpainting e proiezione geometrica per creare contenuti visualizzabili su display LCD a visione libera.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Il paper presenta InstructHumans, un nuovo framework per l'editing delle texture di avatar umani 3D animabili basato su istruzioni testuali, che supera i limiti delle attuali metodologie introducendo una variante modificata del Score Distillation Sampling (SDS-E) per garantire edizioni fedeli al testo mantenendo la coerenza con l'avatar originale.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Il paper presenta EasyAnimate, un framework ad alte prestazioni per la generazione video che combina l'attenzione ibrida a finestre e la retropropagazione delle ricompense per migliorare significativamente efficienza e qualità, ottenendo risultati all'avanguardia.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Questo paper presenta l'ExposureEngine, un sistema end-to-end che utilizza bounding box orientati e un'interfaccia basata su agenti linguistici per fornire un'analisi precisa, scalabile e automatizzata della visibilità degli sponsor nelle trasmissioni sportive, superando i limiti dei metodi tradizionali basati su box allineati agli assi.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Questo articolo analizza come le tecniche di editing basate su diffusione, attraverso l'iniezione di rumore e la successiva ricostruzione generativa, indeboliscano o eludano completamente i sistemi di filigrana robusti, dimostrando teoricamente e sperimentalmente che il contenuto del messaggio viene progressivamente cancellato all'aumentare dell'intensità dell'editing.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Il paper presenta DeformTrace, un modello innovativo basato su stati spaziali deformabili e token di relay che supera le limitazioni delle tecniche attuali per la localizzazione temporale delle falsificazioni, offrendo prestazioni all'avanguardia con maggiore efficienza e robustezza.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Il paper presenta SarcasmMiner, un framework di post-addestramento basato su apprendimento per rinforzo che utilizza una strategia di distillazione a doppio binario e ottimizzazione GRPO per migliorare il ragionamento robusto sulla sarcasmia audio-visiva, ottenendo un F1 del 70,22% sul dataset MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Il paper presenta Export3D, un metodo one-shot per l'animazione ritrattistica 3D-aware che, sfruttando un generatore di tri-piano condizionato dall'espressione e un framework di pre-addestramento contrastivo, permette di controllare espressioni facciali e viste della telecamera senza scambiare le caratteristiche dell'identità.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Questo studio identifica e quantifica il "Order-to-Space Bias" (OTS), un pregiudizio sistematico nei modelli di generazione di immagini in cui l'ordine di menzione delle entità nel testo determina erroneamente il layout spaziale, proponendo al contempo un benchmark e strategie di intervento per mitigare tale fenomeno preservando la qualità della generazione.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Il paper presenta Crab⁺, un modello unificato e scalabile per la comprensione audio-visiva che risolve il problema del trasferimento negativo attraverso il dataset AV-UIE v2 e l'architettura I-LoRA, permettendo un apprendimento multi-task che supera le prestazioni dei modelli specializzati in quasi l'88% dei casi.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Precedente

cs.MM