cs.MM artigos | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

O artigo apresenta o CDGLT, um novo quadro de trabalho eficiente que utiliza o ajuste de LayerNorm guiado por deriva de conceitos para melhorar a identificação de metáforas multimodais, alcançando desempenho de última geração no benchmark MET-Meme com custos de treinamento reduzidos.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Este artigo propõe e avalia uma abordagem inovadora que utiliza avatares virtuais e música gerada por IA para transformar sílabos textuais em apresentações audiovisuais cantadas, demonstrando que essa estratégia aumenta significativamente o engajamento, a compreensão e a retenção das informações essenciais pelos estudantes.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artigo apresenta um framework robusto de verificação de locutor baseado em uma mistura de especialistas condicionada ao ruído, que utiliza roteamento inteligente, especialização universal e aprendizado curricular para decompor o espaço de características em subespaços especializados, superando consistentemente os métodos convencionais em condições diversas de ruído.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabalho apresenta o primeiro framework formal para Modelos de Mundo Audiovisuais (AVWM), introduzindo o conjunto de dados AVW-4k e o modelo AV-CDiT para simular dinâmicas ambientais sincronizadas de áudio e vídeo, demonstrando melhorias significativas em tarefas de navegação contínua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

O artigo apresenta o Desafio Grandioso de Microexpressões de 2026 (MEGC2026), que introduz duas novas tarefas de Resposta a Perguntas Visuais (VQA) para vídeos de microexpressões — uma para sequências curtas e outra para vídeos longos — visando explorar as capacidades de raciocínio multimodal de modelos de linguagem e visão avançados na análise de emoções sutis.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Este estudo investiga como a latência afeta a fluidez da interação e a presença social em conferências de realidade virtual, comparando-as com videoconferências tradicionais por meio de experimentos subjetivos que avaliam a percepção de qualidade e a compreensão cognitiva das intenções alheias.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

O artigo propõe o TPIFM, um modelo orientado a tarefas que avalia a fluidez da interação perceptiva em colaboração remota com Realidade Aumentada, utilizando a diferença de just-noticeable (JND) específica de cada tarefa para prever como atrasos e interrupções de rede afetam a experiência do usuário.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Este estudo investiga sistematicamente como a latência afeta a Qualidade de Experiência (QoE) em quadros brancos de realidade virtual em rede, classificando-a em aspectos pragmáticos e hedônicos e analisando suas variações entre diferentes modos de colaboração e plataformas (com e sem avatares) em comparação com uma base PC tradicional.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

O artigo apresenta o MORE-R1, um modelo inovador que aprimora a extração de relações entre objetos visuais e entidades textuais em Grandes Modelos de Linguagem e Visão (LVLMs) ao integrar um processo de raciocínio passo a passo otimizado por Aprendizado por Reforço, alcançando desempenho superior ao estado da arte no benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudo propõe e valida um método baseado em modelos de linguagem grandes (LLMs) para gerar expressões multimodais dinâmicas e semanticamente alinhadas em agentes pedagógicos de realidade virtual, demonstrando que tal abordagem melhora significativamente a eficácia percebida, o engajamento e a presença social dos aprendizes, ao mesmo tempo que reduz o cansaço e o tédio.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabalho apresenta o conjunto de dados DynHiL-EQA e o framework DIVRR, uma solução sem treinamento que refina a visão e seleciona memória adaptativamente para melhorar a robustez e a eficiência de agentes de Resposta a Perguntas Corporificadas (EQA) em ambientes dinâmicos e com presença humana.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

O artigo apresenta o PiVOT, um novo mecanismo de prompting visual que aproveita um modelo fundacional pré-treinado (CLIP) para gerar e refinar dinamicamente prompts online, permitindo que o rastreador suprima distratores e melhore o desempenho no rastreamento genérico de objetos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

O artigo propõe o Q-BAR, um framework híbrido quântico-clássico que utiliza circuitos quânticos variacionais para detectar anomalias semânticas em conteúdo de criadores com poucos dados, superando as limitações de generalização dos métodos clássicos em cenários de escassez de amostras.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

O artigo apresenta o Emotion Collider (EC-Net), uma estrutura baseada em hipergrafos e embeddings no espaço hiperbólico que utiliza aprendizado contrastivo e fusão bidirecional para gerar representações de emoção robustas e semanticamente coerentes, demonstrando alta eficácia em benchmarks multimodais mesmo na presença de ruído ou dados parciais.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

O artigo apresenta o ModalImmune, um framework de treinamento que garante imunidade a falhas em sistemas multimodais ao colapsar intencionalmente canais de entrada durante o aprendizado, resultando em representações conjuntas robustas e estáveis frente a remoções ou corrupções de modalidades.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

O artigo apresenta o TimeSpot, um novo benchmark com 1.455 imagens reais de 80 países para avaliar a capacidade de modelos de visão e linguagem de inferir atributos geográficos e temporais, revelando que os modelos atuais têm desempenho insuficiente nessa tarefa e destacando a necessidade de novos métodos para um entendimento geo-temporal robusto.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

O artigo apresenta o CONSTANT, um modelo de difusão inovador para geração de escrita manuscrita em uma única amostra que utiliza Quantização Consciente de Estilo e Aprendizado Contrastivo de Patch para superar as limitações existentes na captura de características complexas e diversas da caligrafia humana.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs