EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

El paper presenta TaoSR1, un marco innovador que despliega directamente modelos de lenguaje grandes con razonamiento paso a paso para la búsqueda en comercio electrónico, superando las limitaciones de los modelos tradicionales mediante un entrenamiento en tres etapas que combina ajuste fino, optimización de preferencias y muestreo dinámico para lograr un rendimiento superior tanto en pruebas offline como en evaluaciones humanas en línea.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Este artículo presenta CMASE, un marco de experimentación computacional que integra agentes generativos y métodos etnográficos virtuales para permitir que los investigadores se inserten como participantes activos en entornos sociales simulados, logrando así una modelización intervencionista que combina rigor estadístico con profundidad interpretativa y poder explicativo causal.

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Este artículo demuestra que el agente de mutación de código basado en LLM llamado AlphaEvolve puede generar nuevos resultados en teoría de la complejidad, mejorando los límites de aproximación para problemas como MAX-CUT, MAX-4-CUT, MAX-3-CUT y el TSP métrico, al tiempo que utiliza la propia IA para acelerar la verificación de sus construcciones.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

El artículo presenta RL-100, un marco de aprendizaje por refuerzo en el mundo real basado en políticas de difusión que unifica la imitación y el refuerzo para lograr un control robótico de alta frecuencia y un rendimiento del 100% en diversas tareas complejas, superando a operadores expertos y demostrando una robustez sin precedentes en despliegues reales.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

El artículo presenta FALCON, un nuevo paradigma que mejora los modelos de visión-idioma-acción inyectando tokens espaciales 3D ricos derivados de modelos fundacionales en la cabeza de acción, logrando un rendimiento superior y una mayor robustez en tareas del mundo real sin comprometer el razonamiento lingüístico.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

El artículo presenta SynHLMA, un marco innovador que genera secuencias de manipulación de manos para objetos articulados a partir de instrucciones en lenguaje natural, utilizando una representación discreta de la interacción mano-objeto y un modelo de lenguaje alineado para lograr tareas de generación, predicción e interpolación con aplicaciones en robótica.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

El artículo presenta GraphKeeper, un método novedoso para el aprendizaje incremental de dominio en grafos que aborda el olvido catastrófico mediante la desensamblaje y preservación del conocimiento, logrando resultados superiores al estado del arte y una integración flexible con modelos fundamentales de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI