A dataset of medication images with instance segmentation masks for preventing adverse drug events

El artículo presenta MEDISEG, un nuevo conjunto de datos con máscaras de segmentación de instancias para 32 tipos de pastillas en 8262 imágenes que aborda la falta de complejidades del mundo real, demostrando su eficacia para entrenar modelos de IA que previenen errores de medicación y mejoran el reconocimiento de clases no vistas en escenarios de múltiples pastillas.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Este estudio evalúa el reconocimiento de píldoras en escenarios de pocos ejemplos bajo cambios de dominio visual, concluyendo que aunque la clasificación semántica se adapta rápidamente con muy pocos datos, la precisión en la localización disminuye significativamente en condiciones complejas como el solapamiento, lo que subraya la importancia de utilizar datos de entrenamiento realistas para garantizar la robustez en despliegues reales.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

El artículo presenta UltrasoundAgents, un marco de razonamiento basado en agentes múltiples jerárquicos y una estrategia de entrenamiento progresivo desacoplado que mejora el diagnóstico de ecografías mamarias al imitar el flujo de trabajo clínico para localizar lesiones, analizar atributos específicos y generar evidencia estructurada y trazable para la clasificación BI-RADS.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

El artículo presenta OSUM-Pangu, un modelo fundacional de comprensión de voz de código abierto desarrollado completamente en la plataforma Ascend NPU sin CUDA, que integra un codificador de audio con OpenPangu-7B para lograr un rendimiento comparable a los modelos basados en GPU y fomentar la evolución independiente de la inteligencia multimodal.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

El artículo propone DIPE, un mecanismo de codificación posicional que mitiga el desvanecimiento visual en modelos de lenguaje multimodal de gran contexto al eliminar la penalización basada en la distancia entre tokens visuales y textuales, garantizando así una conexión visual estable sin sacrificar el rendimiento en tareas de contexto corto.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Este estudio, basado en una encuesta con estudiantes de proyectos de software, revela que la percepción del sentimiento en los mensajes es inestable, depende fuertemente del contenido específico del enunciado y muestra correlaciones débiles con factores individuales o del proyecto, lo que sugiere precaución al interpretar los resultados del análisis de sentimiento.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

El estudio presenta VoxCare, un sistema escalable de sensores auditivos corporales que analiza en tiempo real los patrones de comunicación natural de los profesionales sanitarios sin almacenar audio crudo, revelando cómo estas interacciones reflejan la carga de trabajo y el estrés para mejorar la entrega de cuidados.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

El artículo presenta S2D, una nueva metodología que combina un modelo de difusión eficiente y una estrategia de reconstrucción robusta para transformar nubes de puntos dispersas en representaciones 3D densas de alta calidad mediante mallas de Gauss 3D, logrando así una reconstrucción de alta fidelidad con un número mínimo de vistas de entrada.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Este estudio analiza cómo las arquitecturas de redes neuronales convolucionales influyen en la precisión del modelo y examina factores adicionales que afectan la eficiencia computacional en entornos de aprendizaje distribuido, proporcionando perspectivas clave para optimizar su despliegue en escenarios intensivos de recursos.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues Moreira2026-03-12💻 cs

Training-Free Multi-Step Inference for Target Speaker Extraction

Este artículo propone un método de inferencia multi-paso sin entrenamiento para la extracción de hablantes objetivo que, utilizando un modelo preentrenado congelado, refina iterativamente la estimación mediante interpolación y selección de candidatos, optimizando métricas intrusivas o no intrusivas (o una combinación de ambas) para lograr mejoras consistentes y un control adaptable en el despliegue práctico.

Zhenghai You, Ying Shi, Lantian Li, Dong Wang2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Este trabajo presenta un marco de aprendizaje por imitación de por vida que utiliza un espacio latente multimodal para la reproducción de experiencias y un mecanismo de ajuste incremental para estabilizar la adaptación, logrando un nuevo estado del arte en los benchmarks LIBERO con mejoras significativas en el rendimiento y una reducción sustancial del olvido catastrófico.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs