cs.MM articles | Gist.Science

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Cet article propose un cadre basé sur les Transformers pour la reconnaissance des émotions audio-visuelles qui résout le décalage de fréquence d'acquisition entre les modalités grâce à l'utilisation d'encodages de position rotatifs temporellement alignés (TaRoPE) et d'une fonction de perte de correspondance inter-temporelle (CTM) pour améliorer l'alignement et la fusion des caractéristiques.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Ce papier propose un pipeline automatisé et déployable localement utilisant un modèle vidéo-langage pour générer des métadonnées cataloguées et attribuer des œuvres dans les archives audiovisuelles des musées, tout en respectant les contraintes de ressources et de régulation.

Minsak Nanang, Adrian Hilton, Armin MustafaFri, 13 Ma🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

Le papier présente SAGE, un cadre d'estimation de la valence et de l'arousal continu qui améliore la robustesse multimodale en adaptant dynamiquement la fusion audio-visuelle à la fiabilité variable des signaux selon les étapes d'interaction.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

On the Possible Detectability of Image-in-Image Steganography

Ce papier démontre que les schémas de stéganographie « image dans image » sont facilement détectables grâce à une analyse par composantes indépendantes et à une méthode de stéganalyse basée sur les moments statistiques, atteignant jusqu'à 84,6 % de précision, voire plus de 99 % avec des méthodes classiques comme SRM.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Cet article propose un protocole d'affinement fin nommé PE-FT, qui combine un affinage sélectif par couches et une tête de classification auxiliaire pour réactiver l'awareness des indices paralinguistiques dans les modèles de langage audio, surpassant ainsi les stratégies d'affinement traditionnelles sur l'ensemble des couches.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan WuFri, 13 Ma🤖 cs.LG

Controllable Dance Generation with Style-Guided Motion Diffusion

Cet article propose SGMD, une méthode de diffusion de mouvement guidée par le style qui intègre des caractéristiques musicales et des invites stylistiques pour générer des danses réalistes et contrôlables, tout en introduisant de nouveaux benchmarks pour des tâches de génération, d'interpolation et d'inpainting chorégraphiques.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

L'article présente altiro3D, une bibliothèque libre qui génère des expériences 3D réalistes et des images à champ lumineux à partir d'une seule image ou vidéo, en combinant l'estimation de profondeur monocular, l'inpainting et des algorithmes de projection 3D pour créer des collages multi-vues affichables sur des écrans LCD à vue libre.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Ce papier présente EasyAnimate, un cadre de génération vidéo haute performance qui combine l'attention hybride par fenêtres, la rétropropagation de récompense et des stratégies d'entraînement innovantes pour atteindre des résultats de pointe en qualité et en efficacité.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Ce papier présente ExposureEngine, un système automatisé et orienté objet qui améliore la précision de l'analyse de visibilité des sponsors dans les retransmissions sportives en utilisant des boîtes englobantes orientées et une interface conversationnelle pour générer des rapports détaillés.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Cet article démontre théoriquement et empiriquement que l'édition d'images par diffusion fragilise et peut même annuler les filigranes robustes, car le processus de débruitage tend à traiter les messages embarqués comme du bruit à éliminer, nécessitant ainsi de nouvelles conceptions de filigranes adaptées à l'ère des transformations génératives.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Le papier propose DeformTrace, un modèle d'espace d'états déformable enrichi de mécanismes de relais et de dynamiques adaptatives, qui surpasse les méthodes existantes pour la localisation temporelle précise des falsifications dans les vidéos et l'audio.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner est un cadre d'entraînement postérieur basé sur l'apprentissage par renforcement qui améliore la détection de la sarcasme audio-visuelle en reformulant la tâche comme un raisonnement structuré et en utilisant une stratégie de distillation à double piste avec un modèle de récompense génératif pour optimiser à la fois la précision et la qualité du raisonnement.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

L'article présente Export3D, une méthode d'animation de portraits en une seule prise qui génère des vues 3D contrôlables par l'expression sans échange d'apparence, grâce à un générateur de tri-planes conditionné et un cadre de pré-entraînement contrastif pour isoler les paramètres d'expression de l'identité.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Ce papier présente CMI-RewardBench, un écosystème complet incluant des jeux de données, un benchmark et des modèles de récompense conçus pour évaluer et aligner les modèles de génération musicale sur des instructions multimodales composées.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Cet article identifie et quantifie le biais « Order-to-Space » (OTS), un phénomène où l'ordre des entités dans le texte influence indûment la disposition spatiale dans les images générées, et propose des stratégies d'intervention pour atténuer ce problème tout en préservant la qualité de génération.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Le papier présente Crab⁺, un modèle audio-visuel unifié et évolutif qui surmonte le transfert négatif entre tâches hétérogènes grâce à une coopération explicite via un nouveau jeu de données d'instruction (AV-UIE v2) et une architecture d'apprentissage par LoRA interactionnelle (I-LoRA), permettant ainsi d'atteindre des performances supérieures à celles des modèles spécialisés sur la majorité des tâches.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Précédent

cs.MM