cs.MM artículos | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Este artículo presenta CDGLT, un marco eficiente y de alto rendimiento para la identificación de metáforas multimodales que utiliza el ajuste de Concept Drift y LayerNorm para superar las limitaciones de los métodos existentes y reducir los costos computacionales.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Este artículo propone y evalúa un enfoque innovador que utiliza avatares virtuales y música generada por IA para transformar los sílabos tradicionales en presentaciones cantadas, logrando así mejorar significativamente la atención, la retención y el recuerdo de la información clave por parte de los estudiantes.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artículo presenta un marco de mezcla de expertos condicionado por el ruido que mejora la verificación de hablantes en entornos ruidosos mediante el descomposición del espacio de características en subespacios especializados, un mecanismo de enrutamiento inteligente y un protocolo de aprendizaje curricular.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabajo presenta el primer marco formal para Modelos de Mundo Audiovisuales (AVWM), introduciendo el conjunto de datos AVW-4k y el modelo AV-CDiT para simular dinámicas ambientales sincronizadas en audio y visión, lo que mejora significativamente la planificación y navegación de agentes en entornos multisensoriales.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

El artículo presenta el Reto de Gran Expresión Micro (MEGC) 2026, una iniciativa que introduce dos nuevas tareas de respuesta a preguntas visuales (ME-VQA y ME-LVQA) para evaluar la capacidad de los modelos de lenguaje y visión grandes en el análisis y razonamiento temporal de expresiones faciales micro en secuencias de video cortas y largas.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Este estudio analiza cómo la latencia afecta la fluidez de la interacción y la presencia social en conferencias de realidad virtual mediante experimentos subjetivos comparativos con la videollamada tradicional, proporcionando insights para optimizar estos sistemas.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Este artículo presenta el TPIFM, un modelo consciente de la tarea que evalúa la fluidez de la interacción perceptiva en la colaboración remota de realidad aumentada clasificando las tareas según su diferencia apenas perceptible (JND) para predecir cómo los impedimentos de la red afectan la experiencia del usuario.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Este estudio investiga cómo la latencia afecta la calidad de experiencia (QoE) en pizarras virtuales de realidad en red, clasificándola en aspectos pragmáticos y hedónicos, y analizando su impacto a través de diferentes modos de colaboración y configuraciones de plataformas (con y sin avatares) en comparación con una pizarra basada en PC.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

El artículo presenta MORE-R1, un modelo innovador que utiliza aprendizaje por refuerzo y un proceso de entrenamiento en dos etapas para dotar a los Grandes Modelos Visuales-Lingüísticos de capacidades de razonamiento paso a paso y lograr un rendimiento superior en la tarea de extracción de relaciones multimodales entre objetos y entidades.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudio propone un método impulsado por modelos de lenguaje grande para generar expresiones multimodales dinámicas en agentes pedagógicos de realidad virtual, demostrando mediante experimentos subjetivos que la alineación semántica entre el habla y los gestos mejora significativamente la experiencia de aprendizaje, la participación y la percepción de presencia social.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

El artículo presenta PiVOT, un nuevo mecanismo de visual prompting que aprovecha el modelo fundacional CLIP para generar y refinar dinámicamente indicaciones visuales en línea, mejorando así la capacidad de los rastreadores de objetos genéricos para suprimir distracciones y distinguir el objetivo de su entorno.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

El artículo propone Q-BAR, un marco híbrido cuántico-clásico que utiliza circuitos cuánticos variacionales para detectar anomalías semánticas en publicaciones de bloggers con escasez de datos, logrando un alto rendimiento y evitando el sobreajuste mediante una eficiencia paramétrica superior a los métodos clásicos.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

El artículo presenta EC-Net, un marco de hipergrafos hiperbólicos que utiliza incrustaciones en la bola de Poincaré y aprendizaje contrastivo para mejorar la recuperación de sentimientos y la comprensión multimodal de emociones, logrando mayor precisión y robustez ante ruido o datos faltantes.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

El artículo presenta ModalImmune, un marco de entrenamiento que fortalece la inmunidad de los sistemas multimodales ante la pérdida o corrupción de canales de entrada mediante el colapso controlado de información modal durante el entrenamiento, logrando así representaciones conjuntas más robustas sin comprometer la estabilidad de la convergencia ni la capacidad de reconstrucción.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

El artículo presenta CONSTANT, un nuevo modelo de difusión para la generación de escritura a mano en un solo disparo que utiliza cuantización consciente del estilo y mejora de contraste de parches para capturar con precisión las características únicas de un escritor a partir de una sola imagen de referencia, superando a los métodos actuales en diversos idiomas.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este trabajo propone un marco en cascada de dos etapas que genera videos de movimientos humanos complejos a partir de descripciones de texto mediante un modelo autoregresivo texto-huesos y un modelo de difusión video-huesos con DINO-ALF, complementado con un nuevo dataset sintético para superar las limitaciones actuales en la generación de acrobacias y movimientos dinámicos.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs