From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabajo presenta un método unificado para la reconstrucción robusta de dos manos a partir de imágenes monoculares que combina la alineación de priores estructurales heterogéneos de modelos fundacionales en 2D con un modelo de difusión libre de penetración en 3D para lograr interacciones físicamente creíbles y resistentes a oclusiones.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

El artículo presenta SFIBA, un ataque de puerta trasera invisible basado en el espacio que garantiza la especificidad y el sigilo en escenarios de caja negra mediante la restricción de los desencadenantes a regiones espaciales locales y su inyección en el dominio de la frecuencia, logrando así un alto rendimiento de ataque multiobjetivo sin comprometer la detección o el rendimiento del modelo.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

El artículo presenta FreeKV, un marco de co-optimización sin entrenamiento que combina técnicas de recuperación especulativa y corrección de granularidad fina con una arquitectura de sistema híbrida en CPU/GPU para lograr una aceleración de hasta 13 veces en la inferencia de LLMs manteniendo una precisión casi sin pérdidas.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

El documento presenta MAS-ZERO, un marco de diseño de sistemas multiagente autoevolutivo que, sin supervisión ni conjunto de validación, optimiza dinámicamente la descomposición de problemas y la composición de agentes en tiempo de inferencia, superando significativamente a los enfoques manuales y automáticos existentes en tareas de razonamiento, codificación y búsqueda.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artículo presenta AgarCL, una plataforma de investigación basada en el juego Agar.io diseñada para el aprendizaje por refuerzo continuo que, a través de sus dinámicas no episódicas y complejas, revela que los métodos actuales de aprendizaje continuo apenas superan a los algoritmos estándar, indicando que los desafíos van más allá del dilema de estabilidad-plasticidad.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Este artículo presenta un nuevo enfoque que mejora la seguridad de los modelos de lenguaje frente a inyecciones de instrucciones al inyectar señales de jerarquía de instrucciones en las representaciones intermedias de la red mediante embebidos entrenables, logrando una reducción significativa en la tasa de éxito de los ataques sin comprometer la utilidad del modelo.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Este trabajo propone una nueva representación de entornos proteicos locales derivada de modelos fundamentales atómicos que captura eficazmente tanto la estructura como las características químicas, permitiendo la construcción de predictores de desplazamiento químico con precisión de vanguardia y abriendo nuevas vías para el modelado de proteínas.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

El artículo presenta Co-LoRA, un enfoque de aprendizaje federado personalizado que aborda la heterogeneidad tanto de datos como de modelos mediante una estrategia de agregación consciente de la relevancia de la tarea y un módulo adaptable a diferentes arquitecturas, validado en un nuevo benchmark multimodal que demuestra un rendimiento superior al estado del arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG