V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Cet article propose un cadre basé sur les Transformers pour la reconnaissance des émotions audio-visuelles qui résout le décalage de fréquence d'acquisition entre les modalités grâce à l'utilisation d'encodages de position rotatifs temporellement alignés (TaRoPE) et d'une fonction de perte de correspondance inter-temporelle (CTM) pour améliorer l'alignement et la fusion des caractéristiques.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Cet article propose un protocole d'affinement fin nommé PE-FT, qui combine un affinage sélectif par couches et une tête de classification auxiliaire pour réactiver l'awareness des indices paralinguistiques dans les modèles de langage audio, surpassant ainsi les stratégies d'affinement traditionnelles sur l'ensemble des couches.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan WuFri, 13 Ma🤖 cs.LG

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Cet article démontre théoriquement et empiriquement que l'édition d'images par diffusion fragilise et peut même annuler les filigranes robustes, car le processus de débruitage tend à traiter les messages embarqués comme du bruit à éliminer, nécessitant ainsi de nouvelles conceptions de filigranes adaptées à l'ère des transformations génératives.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner est un cadre d'entraînement postérieur basé sur l'apprentissage par renforcement qui améliore la détection de la sarcasme audio-visuelle en reformulant la tâche comme un raisonnement structuré et en utilisant une stratégie de distillation à double piste avec un modèle de récompense génératif pour optimiser à la fois la précision et la qualité du raisonnement.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Le papier présente Crab⁺, un modèle audio-visuel unifié et évolutif qui surmonte le transfert négatif entre tâches hétérogènes grâce à une coopération explicite via un nouveau jeu de données d'instruction (AV-UIE v2) et une architecture d'apprentissage par LoRA interactionnelle (I-LoRA), permettant ainsi d'atteindre des performances supérieures à celles des modèles spécialisés sur la majorité des tâches.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI