Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Granulon es un nuevo modelo de lenguaje multimodal basado en DINOv3 que supera las limitaciones de los encoders visuales actuales mediante un controlador de granularidad condicionado por texto y una agregación de tokens adaptativa, logrando un razonamiento unificado de nivel de píxel a concepto global que mejora la precisión y reduce las alucinaciones.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

El artículo presenta VisionCreator-R1, un agente nativo de generación visual que incorpora mecanismos de reflexión explícita y un método de entrenamiento de co-optimización reflexión-plan (RPCO) para corregir errores en tiempo real, superando consistentemente a modelos como Gemini2.5Pro en tareas de generación de imágenes individuales y múltiples.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

Este artículo presenta HMR-1, un robot de masaje jerárquico que integra un modelo de lenguaje visual para la localización de acupuntos y un módulo de control de bajo nivel, respaldado por el nuevo conjunto de datos multimodal MedMassage-12K y un benchmark para evaluar tareas de masaje en la atención sanitaria.

Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng Zhang2026-03-11💻 cs

Impact of Different Failures on a Robot's Perceived Reliability

Este estudio demuestra que, en la interacción humano-robot, los errores de selección o colocación afectan menos la fiabilidad percibida que los deslizamientos o bloqueos, y que una ejecución exitosa posterior es suficiente para recuperar la confianza sin necesidad de reparaciones sociales explícitas.

Andrew Violette, Zhanxin Wu, Haruki Nishimura, Masha Itkina, Leticia Priebe Rocha, Mark Zolotas, Guy Hoffman, Hadas Kress-Gazit2026-03-11💻 cs

HeteroFedSyn: Differentially Private Tabular Data Synthesis for Heterogeneous Federated Settings

HeteroFedSyn es el primer marco de síntesis de datos tabulares con privacidad diferencial diseñado específicamente para entornos federados horizontales heterogéneos, que mediante innovaciones en la selección de márgenes distribuidos logra una utilidad comparable a la síntesis centralizada a pesar de la heterogeneidad de los datos y el ruido adicional.

Xiaochen Li, Fengyu Gao, Xizixiang Wei, Tianhao Wang, Cong Shen, Jing Yang2026-03-11💻 cs

NaviNote: Enabling In-situ Spatial Annotation Authoring to Support Exploration and Navigation for Blind and Low Vision People

El artículo presenta NaviNote, un sistema que combina localización de alta precisión basada en visión y una arquitectura agéntica para permitir a personas ciegas o con baja visión crear anotaciones espaciales in situ y mejorar su navegación en entornos desconocidos.

Ruijia Chen, Yuheng Wu, Charlie Houseago, Filipe Gaspar, Filippo Aleotti, Dorian Gálvez-López, Oliver Johnston, Diego Mazala, Guillermo Garcia-Hernando, Maryam Bandukda, Gabriel Brostow, Jessica Van Brummelen2026-03-11💻 cs

Investigating the Effects of LLM Use on Critical Thinking Under Time Constraints: Access Timing and Time Availability

Un estudio experimental revela que el impacto de los modelos de lenguaje grandes (LLM) en el pensamiento crítico depende fundamentalmente del tiempo disponible y el momento de acceso: mientras que el uso temprano o continuo de LLM mejora el rendimiento bajo presión temporal, lo perjudica cuando hay tiempo suficiente, invirtiendo este efecto cuando el acceso es tardío o nulo.

Jiayin Zhi, Harsh Kumar, Mina Lee2026-03-11💻 cs

Touching Emotions, Smelling Shapes: Exploring Tactile, Olfactory and Emotional Cross-sensory Correspondences in Preschool Aged Children

Este estudio con 26 niños en edad preescolar demuestra que existen correspondencias significativas entre el olfato, el tacto y las emociones, revelando estrategias de asociación que ofrecen nuevas perspectivas empíricas y directrices de diseño para tecnologías educativas dirigidas a esta etapa del desarrollo.

Tegan Roberts-Morgan, Min S. Li, Priscilla Lo, Zhuzhi Fan, Dan Bennett, Oussama Metatla2026-03-11💻 cs

Computing LL_\infty Hausdorff Distances Under Translations: The Interplay of Dimensionality, Symmetry and Discreteness

Este artículo utiliza la complejidad de precisión fina para analizar cómo la dimensionalidad, la simetría (dirigido vs. no dirigido) y la discretización afectan la complejidad temporal de calcular la distancia de Hausdorff LL_\infty bajo traslaciones, revelando asimetrías en los límites superiores e inferiores y reducciones a problemas como 3SUM y MaxConv.

Sebastian Angrick, Kevin Buchin, Geri Gokaj, Marvin Künnemann2026-03-11💻 cs