Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artigo propõe um framework baseado em Transformer para reconhecimento de emoções áudio-visuais que utiliza atenção multimodal, incorporando Embeddings de Posição Rotativa Alinhados Temporalmente (TaRoPE) e uma função de perda de Correspondência Cross-Temporal (CTM) para resolver desalinhamentos de taxa de quadros e melhorar a fusão de características entre modalidades.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

On the Possible Detectability of Image-in-Image Steganography

Este artigo demonstra que esquemas de esteganografia imagem-em-imagem são facilmente detectáveis, pois o processo de mistura resultante é identificável por análise de componentes independentes, permitindo que um método de esteganálise baseado nos quatro primeiros momentos desses componentes alcance alta precisão na distinção entre imagens originais e modificadas.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

O artigo apresenta o ExposureEngine, um sistema automatizado que utiliza caixas delimitadoras orientadas (OBB) e uma camada de agentes baseada em linguagem natural para detectar com precisão logotipos de patrocinadores em transmissões esportivas e calcular métricas de visibilidade, superando as limitações dos métodos tradicionais de caixas alinhadas aos eixos.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Este artigo demonstra teórica e empiricamente que a edição de imagens baseada em difusão compromete severamente a robustez de marcas d'água invisíveis, pois o processo de adição e remoção de ruído trata os sinais de marca d'água como variações indesejadas, levando a uma degradação da informação que torna a decodificação praticamente impossível à medida que a intensidade da edição aumenta.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

O artigo apresenta o Export3D, um método de animação de retratos em uma única imagem que gera um tri-plano condicional 3D-aware para controlar expressões faciais e ângulos de câmera sem trocar a aparência do sujeito, graças a um novo quadro de pré-treinamento contrastivo que isola os parâmetros de expressão dos traços de identidade.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

O artigo apresenta o Crab+, um modelo unificado e escalável de compreensão de cenas áudio-visuais que supera o problema de transferência negativa através da criação do dataset AV-UIE v2 e da proposta do mecanismo I-LoRA, permitindo uma cooperação explícita entre tarefas heterogêneas e alcançando desempenho superior em 88% dos casos em comparação com abordagens de tarefa única.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI