MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

El artículo presenta el Reto de Gran Expresión Micro (MEGC) 2026, una iniciativa que introduce dos nuevas tareas de respuesta a preguntas visuales (ME-VQA y ME-LVQA) para evaluar la capacidad de los modelos de lenguaje y visión grandes en el análisis y razonamiento temporal de expresiones faciales micro en secuencias de video cortas y largas.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

El artículo presenta MORE-R1, un modelo innovador que utiliza aprendizaje por refuerzo y un proceso de entrenamiento en dos etapas para dotar a los Grandes Modelos Visuales-Lingüísticos de capacidades de razonamiento paso a paso y lograr un rendimiento superior en la tarea de extracción de relaciones multimodales entre objetos y entidades.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudio propone un método impulsado por modelos de lenguaje grande para generar expresiones multimodales dinámicas en agentes pedagógicos de realidad virtual, demostrando mediante experimentos subjetivos que la alineación semántica entre el habla y los gestos mejora significativamente la experiencia de aprendizaje, la participación y la percepción de presencia social.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

El artículo presenta EC-Net, un marco de hipergrafos hiperbólicos que utiliza incrustaciones en la bola de Poincaré y aprendizaje contrastivo para mejorar la recuperación de sentimientos y la comprensión multimodal de emociones, logrando mayor precisión y robustez ante ruido o datos faltantes.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

El artículo presenta ModalImmune, un marco de entrenamiento que fortalece la inmunidad de los sistemas multimodales ante la pérdida o corrupción de canales de entrada mediante el colapso controlado de información modal durante el entrenamiento, logrando así representaciones conjuntas más robustas sin comprometer la estabilidad de la convergencia ni la capacidad de reconstrucción.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

El artículo presenta CONSTANT, un nuevo modelo de difusión para la generación de escritura a mano en un solo disparo que utiliza cuantización consciente del estilo y mejora de contraste de parches para capturar con precisión las características únicas de un escritor a partir de una sola imagen de referencia, superando a los métodos actuales en diversos idiomas.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este trabajo propone un marco en cascada de dos etapas que genera videos de movimientos humanos complejos a partir de descripciones de texto mediante un modelo autoregresivo texto-huesos y un modelo de difusión video-huesos con DINO-ALF, complementado con un nuevo dataset sintético para superar las limitaciones actuales en la generación de acrobacias y movimientos dinámicos.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs