cs.MM artigos | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artigo propõe um framework baseado em Transformer para reconhecimento de emoções áudio-visuais que utiliza atenção multimodal, incorporando Embeddings de Posição Rotativa Alinhados Temporalmente (TaRoPE) e uma função de perda de Correspondência Cross-Temporal (CTM) para resolver desalinhamentos de taxa de quadros e melhorar a fusão de características entre modalidades.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artigo propõe um pipeline automatizado e localmente implantável que utiliza modelos de linguagem multimodais para gerar metadados descritivos e atribuições de artistas em vídeos de museus, melhorando a descoberta de arquivos audiovisuais enquanto respeita restrições de recursos, soberania de dados e regulamentações.

Minsak Nanang, Adrian Hilton, Armin MustafaFri, 13 Ma🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

O artigo apresenta o SAGE, um framework de modelagem de confiabilidade adaptativa a estágios que melhora a estimativa contínua de valência e excitação ao calibrar dinamicamente a confiança dos sinais de áudio e vídeo conforme a fase da interação, superando assim as limitações de abordagens existentes em ambientes do mundo real.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

On the Possible Detectability of Image-in-Image Steganography

Este artigo demonstra que esquemas de esteganografia imagem-em-imagem são facilmente detectáveis, pois o processo de mistura resultante é identificável por análise de componentes independentes, permitindo que um método de esteganálise baseado nos quatro primeiros momentos desses componentes alcance alta precisão na distinção entre imagens originais e modificadas.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

O artigo apresenta o SGMD, um modelo de difusão de movimento guiado por estilo que integra características musicais e prompts de estilo para gerar sequências de dança realistas e controláveis, superando as limitações de alinhamento estilístico e flexibilidade existentes em abordagens anteriores.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

O artigo apresenta o altiro3D, uma biblioteca gratuita que gera experiências 3D realistas e síntese de novas visualizações a partir de uma única imagem ou vídeo plano, utilizando estimativa de profundidade, técnicas de inpainting e um algoritmo rápido para projeção 3D, permitindo a exibição em telas LCD de visão livre.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

O artigo apresenta o ExposureEngine, um sistema automatizado que utiliza caixas delimitadoras orientadas (OBB) e uma camada de agentes baseada em linguagem natural para detectar com precisão logotipos de patrocinadores em transmissões esportivas e calcular métricas de visibilidade, superando as limitações dos métodos tradicionais de caixas alinhadas aos eixos.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Este artigo demonstra teórica e empiricamente que a edição de imagens baseada em difusão compromete severamente a robustez de marcas d'água invisíveis, pois o processo de adição e remoção de ruído trata os sinais de marca d'água como variações indesejadas, levando a uma degradação da informação que torna a decodificação praticamente impossível à medida que a intensidade da edição aumenta.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

O artigo apresenta o DeformTrace, um modelo de espaço de estados deformável com tokens de retransmissão que supera as limitações atuais na localização temporal de falsificações ao oferecer maior precisão, sensibilidade a anomalias esparsas e eficiência computacional.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

O artigo apresenta o SarcasmMiner, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza uma estratégia de destilação dual e otimização GRPO para melhorar o raciocínio sobre sarcasmo multimodal, alcançando um F1 de 70,22% no conjunto de dados MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

O artigo apresenta o Export3D, um método de animação de retratos em uma única imagem que gera um tri-plano condicional 3D-aware para controlar expressões faciais e ângulos de câmera sem trocar a aparência do sujeito, graças a um novo quadro de pré-treinamento contrastivo que isola os parâmetros de expressão dos traços de identidade.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este artigo identifica e quantifica o viés "Ordem-Espaço" (OTS) em modelos de geração de imagens, demonstrando que a ordem de menção das entidades no texto influencia indevidamente o layout espacial, e propõe estratégias de intervenção que mitigam esse problema sem comprometer a qualidade da geração.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

O artigo apresenta o Crab+, um modelo unificado e escalável de compreensão de cenas áudio-visuais que supera o problema de transferência negativa através da criação do dataset AV-UIE v2 e da proposta do mecanismo I-LoRA, permitindo uma cooperação explícita entre tarefas heterogêneas e alcançando desempenho superior em 88% dos casos em comparação com abordagens de tarefa única.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Anterior

cs.MM