PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

El artículo presenta PolGS++, un marco de representación gaussiana polarimétrica guiado por física que integra un modelo pBRDF y una máscara de visibilidad guiada por profundidad para lograr una reconstrucción rápida y precisa de superficies reflectantes mediante la decouplación de componentes difusos y especulares.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Este artículo presenta un marco unificado basado en hipercubos de datos comprimidos mediante estructuras arbóreas dentro del sistema Polytope, diseñado para superar las limitaciones de los modelos tradicionales y permitir una extracción eficiente y flexible de características en conjuntos de datos de ciencias de la Tierra irregulares y complejos.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin Schultz2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

El artículo presenta HanMoVLM, un modelo de visión-lingüaje grande especializado en la evaluación profesional de pinturas chinas que, mediante un dataset de obras maestras y un razonamiento paso a paso validado por expertos, cierra la brecha con la evaluación humana y actúa como verificador de alta calidad para mejorar la generación de imágenes artísticas.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

El artículo presenta MEDISEG, un nuevo conjunto de datos con máscaras de segmentación de instancias para 32 tipos de pastillas en 8262 imágenes que aborda la falta de complejidades del mundo real, demostrando su eficacia para entrenar modelos de IA que previenen errores de medicación y mejoran el reconocimiento de clases no vistas en escenarios de múltiples pastillas.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Este estudio evalúa el reconocimiento de píldoras en escenarios de pocos ejemplos bajo cambios de dominio visual, concluyendo que aunque la clasificación semántica se adapta rápidamente con muy pocos datos, la precisión en la localización disminuye significativamente en condiciones complejas como el solapamiento, lo que subraya la importancia de utilizar datos de entrenamiento realistas para garantizar la robustez en despliegues reales.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

El artículo presenta UltrasoundAgents, un marco de razonamiento basado en agentes múltiples jerárquicos y una estrategia de entrenamiento progresivo desacoplado que mejora el diagnóstico de ecografías mamarias al imitar el flujo de trabajo clínico para localizar lesiones, analizar atributos específicos y generar evidencia estructurada y trazable para la clasificación BI-RADS.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

El artículo presenta OSUM-Pangu, un modelo fundacional de comprensión de voz de código abierto desarrollado completamente en la plataforma Ascend NPU sin CUDA, que integra un codificador de audio con OpenPangu-7B para lograr un rendimiento comparable a los modelos basados en GPU y fomentar la evolución independiente de la inteligencia multimodal.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

El artículo propone DIPE, un mecanismo de codificación posicional que mitiga el desvanecimiento visual en modelos de lenguaje multimodal de gran contexto al eliminar la penalización basada en la distancia entre tokens visuales y textuales, garantizando así una conexión visual estable sin sacrificar el rendimiento en tareas de contexto corto.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Este estudio, basado en una encuesta con estudiantes de proyectos de software, revela que la percepción del sentimiento en los mensajes es inestable, depende fuertemente del contenido específico del enunciado y muestra correlaciones débiles con factores individuales o del proyecto, lo que sugiere precaución al interpretar los resultados del análisis de sentimiento.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

El estudio presenta VoxCare, un sistema escalable de sensores auditivos corporales que analiza en tiempo real los patrones de comunicación natural de los profesionales sanitarios sin almacenar audio crudo, revelando cómo estas interacciones reflejan la carga de trabajo y el estrés para mejorar la entrega de cuidados.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

El artículo presenta S2D, una nueva metodología que combina un modelo de difusión eficiente y una estrategia de reconstrucción robusta para transformar nubes de puntos dispersas en representaciones 3D densas de alta calidad mediante mallas de Gauss 3D, logrando así una reconstrucción de alta fidelidad con un número mínimo de vistas de entrada.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs